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前 言 


本 书 是 《商业 智能 深入 浅 出 》 的 姊妹 版 ， 数 据 架 构 、 商 业 智 能 、 数 据 治 理 和 大 数据 技 
术 是 本 书 的 核心 。 

为 什么 本 书 将 数据 架构 和 商业 智能 放 在 一 起 ? 本 书 为 什么 穿插 着 大 数据 和 数据 治理 方面 
的 内 容 ? 

传统 的 商业 智能 系统 是 围绕 模型 设计 、 数 据 采 集 、 加 工 、 联 机 分 析 和 报表 生成 而 设计 
的 ， 目 的 是 提高 企业 的 运营 效率 ， 增 强 企业 的 竞争 力 和 领导 者 的 决策 能 力 。 而 数据 架构 关注 
的 是 数据 的 分 布 、 流 转 和 数据 分 类 等 内 容 ， 目 的 是 通过 对 数据 采集 、 加 工 、 对 外 服务 和 数据 
模型 的 设计 ， 提 高 数据 处 理 和 加 工 的 效率 ， 提 升 数据 采集 的 灵活 性 。 

如 何 建立 一 个 灵活 、 松 耦合 、 高 性 能 的 数据 架构 规划 体系 ， 是 很 多 企业 和 金融 机 构 必须 
重视 的 问题 。 经 过 多 年 的 信息 化 实践 ， 很 多 企业 和 金融 机 构 已 经 逐渐 认识 到 ， 系 统 应 该 具备 
多 渠道 数据 采集 能 力 、 历 史 与 趋势 分 析 能 力 。 数 据 架 构 规 划 在 信息 化 过 程 中 起 厦 非常 重要 的 
作用 ， 通 过 数据 架构 规划 可 以 推动 企业 信息 化 的 进程 ， 保 证 企业 通过 使 用 数据 ， 提 供 更 好 的 
产品 和 服务 ， 降 低 成 本 和 控制 风险 ， 促 进 企业 经 营 战略 的 实现 ， 提 升 企业 的 核心 竞争 力 。 

由 于 激烈 的 市 场 竞争 和 业务 的 快速 发 展 ， 很 多 企业 迫切 需要 改变 运营 模式 ， 但 是 由 于 数 
据 模型 的 不 统一 ， 数 据 分 散 ， 不 能 共享 ， 严 重 制约 了 企业 的 发 展 ， 它 们 已 经 充分 认识 到 数据 
是 核心 资产 ， 正 是 这 个 原因 IT 人 员 需 要 了 解数 据 架 构 方面 的 知识 。 数 据 架 构 是 基础 ， 而 商 
业 智 能 是 在 数据 架构 基础 之 上 建立 起 来 的 一 种 解决 方案 。 它 们 是 相辅相成 、 融 汇 贯 通 的 ， 两 
者 之 间 有 相通 的 地 方 ， 又 有 不 同 的 分 析 视 角 和 重点 。 

随 着 数据 采集 范围 的 不 断 扩大 ， 使 得 文档 、 视 频 等 半 结 构 化 和 非 结构 化 的 数据 逐渐 成 为 
很 多 企业 主要 的 数据 源 。 我 们 可 以 这 样 说 ，80% 的 数据 可 能 都 来 自 于 非 结构 化 数据 。 包 括 : 
图 像 、 音 频 、 微 傅 、 网 帖 、 电 子 邮件 等 信息 。 特 别 是 对 于 商业 银行 ， 坐 拥 大 量 非 结 构 化 数据 
却 未 能 更 好 地 创造 业务 价值 。 对 于 商业 银行 来 说 ， 大 数据 更 是 机 遇 ， 客 户 在 不 断 地 与 银行 交 
易 和 交互 过 程 中 ， 会 创造 出 各 种 类 型 的 数据 ， 这 也 为 商业 银行 实时 或 者 准 实时 的 数据 分 析 提 
供 了 便利 ， 可 以 对 客户 进行 有 针对 性 的 营销 ， 所 以 ， 大 数据 技术 也 是 本 书 的 核心 内 容 之 一 ， 
穿插 在 各 个 章节 当中 。 男 外 ， 为 了 提升 数据 架构 各 个 层次 的 管控 及 其 协作 能 力 ， 也 需要 相关 
人 员 理 解数 据 治理 方面 的 知识 ， 所 以 本 书 也 穿插 着 相关 内 容 。 

本 书 的 亮点 是 什么 ? 

本 书 试图 利用 公式 般 的 架构 推导 过 程 ， 以 企业 总 体 规划 为 主线 ， 先 从 企业 战略 、 企 业 架 
构 出 发 ， 逐 步 细 化 到 业务 战略 、 开 战略、 业务 架构 和 开 架构， 再 细 化 到 应 用 架构 、 数 据 架 
构 、 技 术 架 构 和 数据 治理 的 过 程 ， 如 下 网 所 示 。 而 商业 智能 可 以 看 成 是 帮助 用 户 对 自身 业务 
经 营 做 出 明智 决策 的 解决 方案 之 一 ， 也 可 以 看 作 是 IT 战略 的 一 部 分 。 企 业 IT 架构 的 目的 是 
为 所 有 的 解决 方案 提供 开支 持 。 最 后 利用 数据 架构 的 方法 论 讲解 关于 商业 智能 的 数据 模型 
设计 、 数 据 的 分 布 、 流 转 等 内 容 。 

这 种 公式 般 的 推导 过 程 ， 会 让 读者 真正 理解 架构 的 核心 思想 和 方法 论 ， 知 其 然 ， 亦 知 其 
所 以 然 ， 同 时 可 以 帮助 读者 将 书 中 的 架构 思路 和 方法 应 用 到 具体 的 项 目 当 中 去 。 
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阅读 本 书 应 该 重点 关注 哪些 内 容 ? 

“ 乱 花 渐 欲 迷人 有 眼 ”， 我 们 不 要 拘泥 于 对 具体 概念 的 理解 ， 而 更 应 该 看 重 对 架构 方法 和 
思路 的 理解 ， 例 如 ， 如 何 对 某 企 业 的 数据 架构 现状 进行 分 析 ， 分 析 的 方法 和 思路 是 什么 ;如 
何 对 该 企业 的 目标 数据 架构 进行 规划 ， 规 划 的 重点 和 步骤 是 什么 …… 

为 什么 写 这 本 书 ? 

与 本 书 类 似 的 书籍 在 国内 图 书 类 市 场 中 基本 上 是 一 个 空白 ， 但 是 数据 架构 师 的 职位 在 IT 企 
业 中 却 越 来 越 受 到 重视 ， 出 现 了 “ 喷 井 ” 式 的 局 面 ， 数 据 架 构 师 的 理论 水 平和 项 目 经 验 也 需要 达 
到 一 定 的 高 度 ， 他 们 需要 营 握 数据 如 构 、 商 业 智 能 、 大 数据 和 数据 治理 方面 的 知识 。 

目前 现状 是 商业 智能 图 书 不 仅 小 众 ， 在 某 种 程度 上 甚至 可 以 说 是 一 个 珍稀 品种 。 讲 解 商 
业 智 能 架构 方面 知识 的 书籍 更 是 少 之 又 少 ， 而 本 书 除了 讲解 企业 架构 、 业 务 架 构 、 数 据 架 构 
等 方面 的 知识 外 ， 还 讲解 了 商业 智能 领域 的 架构 知识 ， 更 是 从 企业 整体 规划 的 角度 去 分 析 商 
业 智 能 领域 的 应 用 ， 包 括 围绕 商业 智能 的 数据 架构 年 内 容 。 

本 书 的 读者 对 象 有 哪些 ? 

本 书 的 读者 定位 为 公司 管理 者 、IT 架构 咨询 顾问 、 数 据 架 构 师 、 系 统 分 析 师 、 商 业 智 
能 架构 师 以 及 有 志 回 涉足 IT 架构 设计 和 咨询 顾问 工作 的 人 们 ,希望 大 家 都 能 从 本 书 中 获 益 。 

本 书 编写 历时 整整 一 年 ， 其 间 经 历 了 豆 悦 、 阿 品 、 痛 可 和 从 很 ， 心 情 是 复杂 的 。 如 今 ， 
伴随 着 本 书 最 终 成 稿 ， 复 杂 的 心情 烟消云散 ， 上 自己 甚至 还 有 一 点 成 就 感 。 在 这 里 要 感谢 帮助 
我 完成 此 书 的 所 有 人 。 

感谢 公司 的 同事 ， 他 们 以 各 种 方式 为 本 书 的 编写 做 出 了 重要 的 贡献 ， 感 谢 他 们 的 技术 文 
持 和 帮助 。 

最 后 ， 也 是 最 重要 的 ， 我 要 感谢 母亲 (张丽华 ) 、 父 亲 〈 王 贵 林 ) ， 他 们 倾注 了 父母 无 
尽 的 爱 ， 感 谢 他 们 对 我 的 培养 和 无 微 不 至 的 照顾 ， 同 时 对 于 本 书 的 出 版 给 予 了 我 不 懈 的 支 
持 ， 还 要 感谢 岳父 (本 一 贤 ) 、 岳 母 〈( 赵 桂 荣 ) ， 书 中 同样 凝聚 了 他 们 的 心血 和 付出 。 感 谢 
二 板 〈 王 玉 奎 ) ， 他 的 鼓励 激发 了 我 写作 的 热情 。 感 谢 泣 天 的 妻子 (丁玲 玲 ) 和 心爱 的 女儿 
( 王 预 营 ) 。 他 们 是 我 最 大 的 精神 支柱 ， 如 果 没 有 他 们 的 辛劳 和 付出 ， 我 很 难 想象 能 完成 这 
本 书 的 创作 。 

虽然 本 人 在 编著 过 程 中 尽 了 最 大 努力 ,但 是 由 于 本 人 的 水 平和 时 间 有 限 ， 本 书 可 能 存在 
不 足 之 人 处， 和 敬 请 广大 同行 和 读者 批评 指正 。 
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第 1 午 企业 染 构 总 体 规 划 


本 章 目 标 

通过 本 章 的 学 习 ， 应 该 理解 的 内 容 包 括 : 企业 总 体 架 构 规 划 包 含 哪 些 内 容 ?” 关于 IT 战略 、 
业务 战略 、 业 务 架 构 、 数 据 架 构 、 应 用 架构 和 技术 架构 的 定义 是 什么 ?同时 我 们 应 该 掌握 数据 
架构 规划 、 应 用 架构 规划 、 技 术 架 构 规 划 的 方法 论 。 通 过 学 习 ， 读 者 应 对 企业 总 体 规 划 、 企 业 
战略 、 企 业 架 构 、 业 务 架 构 、 应 用 架构 、 技 术 架 构 和 数据 架构 有 一 个 整体 性 的 认识 。 

学 习 本 章 ， 读 者 将 掌握 : 

e 企业 架构 总 体 规划 的 概念 

e 企业 的 总 体 规划 包含 哪些 内 容 

e 什么 是 企业 战略 

e 什么 是 企业 IT 战略 

e 企业 架构 和 企业 战略 之 间 的 关系 

e 什么 是 业务 架构 

e 什么 是 IT 架构 

e 业务 架构 和 开架 构 之 间 的 关系 

e 数据 架构 规划 的 方法 论 

e 应 用 架构 规划 的 方法 论 

e 技术 架构 规划 的 方法 论 











1.1 企业 总 体 染 构 规 划 基 础 


1.1.1 企业 总 体 架 构 规 划 概 念 


一 、 企 业 总 体 架 构 规 划 定 义 ? 

企业 总 体 架构 规划 是 从 全 局 出 发 ,解决 现存 问题 ， 同 时 满足 现实 需求 和 适应 未 来 发 展 的 
需要 ， 有 效 地 对 资源 进行 管控 ， 加 强 并 技术 实力 ， 并 且 指 明 企 业 的 经 营 方 各 和 发 展 目标 ， 
对 企业 远景 发 展 轨迹 进行 全 面 规划 。 

我 们 可 以 建立 起 对 企业 总 体 规划 的 感性 认识 ， 把 总 体 规划 看 成 是 对 城市 的 战略 规划 和 具 
有 全 局 性 、 长 远 性 的 建设 规划 等 内 容 。 同 时 遵循 从 实际 出 发 ， 正 确 处 理 好 各 种 关系 的 原则 ， 
使 局 部 建设 和 整体 发 展 能 够 稳步 前 行 ， 近 期 建设 和 远 期 规划 可 以 相互 文 持 。 

举例 来 说 ， 城 市 的 总 体 规 划 主 要 关注 一 个 城市 的 定位 、 发 展 方向 、 功 能 区 域 和 基础 公共 
设施 等 方面 。 

如 图 1-1 所 示 ， 假 设 城市 的 战略 规划 是 建立 一 个 人 文 都 市 ， 打 造 区 域 一 体 化 共 慑 战略， 新 
型 城市 化 、 城 乡 统筹 与 美好 城乡 建设 战略 和 交通 引领 发 展 战略 ， 这 是 对 城市 的 发 展 方向 的 
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建立 一 个 人 文 都 市 ， 打 造 区域 一 体 化 
共 赢 战略 


i Ee i 
sa rs 


新 型 城市 化 、 城 乡 统筹 与 美好 城乡 建 
设 战 领 发 展 战略 





图 1-1 城市 总 体 规划 


定位 O 
城市 的 建设 规划 包括 水 利 规划 ， 电 网 规划 ， 建 筑 和 小 区 的 布局 ， 道 路 交通 ， 煤 气 等 基础 
设施 的 规划 。 


企业 总 体 规 划 类 似 于 城市 总 体 规划 ， 包 含 了 企业 战略 、 企 业 架 构 和 实施 解决 方案 等 。 

二 、 企 业 总 体 规划 包含 的 内 容 

企业 的 总 体 规划 包括 企业 战略 、 企 业 染 构 和 实施 解决 方案 等 内 容 。 

如 图 1-2 所 示 ， 企业 战 略 包含 业务 战略 和 开战 略 ， 是 对 企业 业务 发 展 方向 和 开发 展 方 
回 的 措 述 。 它 们 都 属于 企业 安 观 的 管理 范畴 ， 与 城市 的 战略 规划 类 似 。 企 业 以 构 规 划 包 括 业 
务 染 构 和 全 架构 ， 是 连接 企业 战略 和 实施 解决 方案 的 核心 纽 这 ,类似 于 对 城市 的 建设 规划 。 





企业 总 体 规划 





图 1-2 企业 的 总 体 规划 


其 中 业务 架构 包含 了 对 业务 流程 、 业 务 对 象 、 业 务 规范 和 价值 管理 的 描述 。 开 架构 包含 本 
对 应 用 架构 、 数 据 架 构 和 技术 架构 的 描述 ， 而 数据 染 构 是 本 书 的 核心 和 重点。 

企业 具体 的 实施 解决 方案 是 在 IT 架构 满足 企业 战略 的 基础 上 ， 通 过 数据 架构 、 应 用 如 
构 和 技术 架构 指导 企业 具体 实施 的 过 程 。 


1.1.2 企业 战略 


首先 了 解 一 下 什么 是 企业 战略 。 美 国 90% 的 企业 家 认为 :“ 最 占 时 间 、 最 为 重要 、 最 为 
困难 的 事 就 是 制定 战略 规划 ”， 据 相关 机 构 统计 ， 发 达 国 家 的 企业 领导 一 年 中 要 花 大 约 40% 
的 时 间 去 人 猎 究 企 业 战 略 。 

一 、 企 业 战 略 的 定义 

企业 战略 是 对 企业 发 展 目标 ， 包 括 达 成 目标 的 方法 和 途径 的 总 体 谋 划 。 企 业 战 略 的 实质 
就 是 企业 的 发 展 方 回 和 定位 ， 如 果 企 业 的 战略 目标 不 明确 ， 定 位 和 发 展 方 癌 不 清楚 ， 企 业 的 
中 层 管理 人 员 和 普通 员工 就 很 难 领悟 企业 高 层 的 战略 意图 和 任务 实质 。 

上 面 这 种 状况 会 导致 企业 大 部 分 成 员 形 失 方 同感 ， 个 人 的 努力 和 发 展 方 回 不 明确 ， 就 造 
成 了 企业 无 论 是 技术 路 线 、 服 务 方向 ， 还 是 组 织 架 构 、 企 业 文 化 等 诸多 方面 ， 都 会 产生 价值 
冲突 。 

企业 战略 的 作用 就 是 企业 能 够 运筹 帷 岩 ， 根 据 上 自嘲 的 资源 和 环境 选择 合适 的 经 营 发 展 方 
器， 它 是 一 个 长 远 、 持 续 的 发 展 过 程 ， 具 有 一 定 的 稳定 性 。 

例如 ， 企 业 战 略 可 以 包括 : 企业 的 信息 化 战略 、 葛 和 争战 略 、 和 营销 战略 、 技 术 开 发 战 
略 、 人 才 培 养 战略 等 方面 ， 它 们 都 是 从 不 同 的 维度 去 描述 企业 整体 性 、 长 期 性 和 基本 性 
的 问题 ， 都 属于 企业 战略 的 范畴 。 如 采 企 业 是 一 租 船 ， 那 么 企业 的 战略 就 是 航海 网 ， 引 
领 企 业 到 达 目 标 。 

二 、 企 业 战 略 的 特征 

企业 战略 属于 企业 的 宏观 管理 旋 畴 ， 具 有 指导 性 、 长 远 性 、 系 统 性 、 风 险 性 、 全 局 性 和 
元 争 性 等 主要 特征 。 

1) 指导 性 

企业 的 战略 明确 了 企业 的 经 彰 方 针 和 远景 发 展 目标 ， 在 企业 的 生产 和 管理 活动 中 起 看 指 
导 作 用 。 

2) 全 局 性 

企业 战略 具有 全 局 性 ， 通 过 对 政治 、 经 济 、 文 化 以 及 周边 经 营 环 境 的 深入 分 析 ， 并 且 结 
合 目 号 条 件 ， 从 系统 全 局 的 角度 对 企业 的 发 展 进行 全 面 规划 。 

3) 长 远 性 

企业 战略 基于 企业 长 期 生存 和 长 远 发 展 的 需要 ， 确 立 企 业 的 战略 方向 和 远景 目标 。 企 业 
战略 是 一 个 长 期 、 持 续 的 过 程 ， 具 有 一 定 的 稳定 性 。 

4) 系统 性 

企业 战略 属于 决策 层 的 战略 ， 企 业 的 经 营 方 针 、 投 资 规模 、 经 营 方 回 和 发 展 目标 是 企业 
战略 的 核心 部 分 。 企 业 战 略 围绕 着 发 展 目标 设立 各 个 阶段 的 经 营 策 略 ， 并 且 构 成 一 个 个 环 环 
相 扣 的 企业 战略 体系 。 



























































5) 风险 性 

企业 的 战略 决策 具有 一 定 的 风险 性 ， 如 果 经 过 深入 的 市 场 研究 ， 客 观 地 设立 远景 目标 ， 
并 且 资 源 调 配 使 用 得 当 ， 制 定 的 企业 战略 就 会 起 到 促进 的 作用 。 反 之 ， 战 略 制定 出 现 偏差 ， 
就 会 为 企业 误 来 相应 的 高 风险 。 

6) 苑 争 性 

企业 战略 需要 考虑 各 种 的 内 外 环境 ， 明 确 目 映 的 发 展 优势 ， 改 善 相应 的 经 营 模 式 ， 增 强 
企业 的 范 争 力 ， 只 有 这 样 才 能 在 市 场 欧 争 中 处 于 领先 地 位 ， 保 证 企业 长 远 健康 的 发 展 。 

一 般 来 说 ， 企 业 战 略 包括 业务 战略 和 IT 战略 。 

1) 业务 战略 

企业 的 业务 战略 是 指 企 业 拥 有 的 所 有 资产 ， 通 过 多 种 方式 进行 有 效 的 运营 ， 以 实现 利润 
的 最 大 化 和 资本 的 增值 。 它 强调 了 企业 在 各 目 生 产 领 域 中 的 发 展 之 道 和 发 展 方向 ， 包 括 如 何 
创造 价值 ， 并 且 以 更 好 的 服务 去 满足 客户 ， 这 是 企业 业务 战略 的 核心 和 重点 。 

2) IT 战略 

企业 的 全 战略 是 指 在 充分 研究 企业 发 展 愿景 、 业 务 策 略 和 管理 的 基础 上 ， 形 成 信息 
系统 的 远景 、 组 成 架构 、 逻 辑 关 系 等 内 容 ， 以 支撑 企业 战略 目标 的 实现 。 从 功能 划分 的 
角度 来 看 ，IT 战略 是 一 类 独立 的 战略 ， 为 了 明确 未 来 IT 的 发 展 定 位 和 战略 目标 ， 可 以 从 
应 用 系统 建设 、 信 息 治 理 、 基 础 设施 、IT 管理 体系 、IT 队伍 建设 等 几 个 方面 进行 全 面 
规划 。 

IT 战略 的 实质 就 是 关于 信息 系统 功能 目标 及 其 实现 的 总 体 规划 。 

IT 战略 的 目的 是 指导 系统 的 建设 ,通过 明确 相应 的 优化 机 制 、 保 障 规划 和 工作 计划 ， 
并 且 根 据 外 部 环境 的 变化 ,不断 地 修改 全 战略 规划 ， 以 适应 未 来 业务 发 展 的 需要 。IT 战略 
是 保证 信息 化 建设 全 面 性 、 前 脆性 的 重要 手段 之 一 。 


1.1.3 什么 是 企业 架构 


一 、 企 业 架 构 的 概念 

企业 总 体 规划 包括 企业 的 战略 、 企 业 架 构 和 企业 具体 的 实施 解决 方案 。 企 业 架 构 又 包括 
业务 架构 和 本 染 构 ， 本 书 重 点 关注 的 是 企业 染 构 中 的 数据 染 构 部 分 。 我 们 先 了 解 一 下 什么 
是 企业 架构 ? 企业 架构 和 企业 战略 的 关系 是 什么 ? 

关于 企业 架构 ， 不 少 的 学 术 人 研究 机 构 、 标 准 组 织 和 大 厂商 ， 都 给 出 了 各 目的 定义 。 

(1) 微软 公司 的 定义 

企业 架构 是 对 一 个 公司 的 核心 业务 流程 和 开 能 力 的 组 织 逻 辑 ， 通 过 一 组 原理 、 政 策 和 
技术 选择 来 获得 ， 以 实现 公司 运营 模型 的 业务 标准 化 和 集成 需求 。 

(2) IBM 公司 的 定义 

企业 架构 是 记录 企业 内 所 有 的 信息 系统 ， 系 统 之 间 的 相互 关系 以 及 系统 如 何 完成 企业 使 
命 的 蓝图 。 

(3) Zachman 的 定义 

企业 染 构 是 构成 组 织 的 所 有 关键 元 紊 和 关系 的 综合 描述 。 企 业 架构 框 儿 (EAF) 是 个 描 
述 企业 架构 方法 的 蓝图 。 






























































二 、 企 业 架 构 的 实质 

企业 架构 实质 上 就 是 对 企业 多 角度 的 一 种 描述 ， 它 反映 了 企业 的 业务 流程 、 技 术 的 组 织 
和 安排 ， 是 对 企业 关键 性 业务 和 技术 的 整体 性 描述 。 

如 果 我 们 把 企业 当做 一 栋 建筑 ， 信 息 技 术 就 是 一 些 建筑 材料 ， 在 建造 的 过 程 中 ， 应 该 根 
据 建 筑 的 功能 定位 并 且 结 合 现 有 的 资源 进行 总 体 的 架构 设计 ， 用 架构 来 指导 建造 的 过 程 。 其 
中 对 建筑 的 功能 定位 类 似 于 企业 的 战略 ， 对 建筑 的 总 体 架 构 设 计 类 似 于 企业 架构 。 其 实 
“ 哥 构 ”一 词 最 早 来 源 于 建筑 行业 ， 它 描绘 了 事物 的 本 质 结构 和 内 在 规律 ， 例 如 城市 需要 城 
市 架构 。 

企业 架构 和 完 从 企业 战略 出 发 去 梳理 业务 染 构 ， 然 后 进一步 分 析 和 规划 开架 构 ， 通 过 对 
企业 架构 的 分 析 ， 将 企业 的 业务 战略 、 业 务 流程 紧密 结合 起 来 ， 为 企业 描绘 一 个 业务 、 信 
息 、 技 术 互 动 的 蓝图 。 企 业 架 构 实 质 上 就 是 企业 的 全 景 图 ， 从 战略 、 愿 景 ， 到 业务 、IT 等 
各 个 方面 展示 企业 的 结构 和 内 部 关系 ， 从 而 指导 企业 开展 信息 化 建设 ， 最 终 实 现 业 务 和 IT 
的 融合 。 

举例 来 说 ,修建 一 栋 房子 ， 需 要 进行 很 多 的 架构 设计 工作 ， 首 先 要 进行 外 部 的 效果 设 
计 ， 当 客户 满意 之 后 ， 再 进行 下 内 部 设计 ， 以 及 配套 的 线路 、 上 下 水 管 等 方面 的 规划 。 同 
样 ， 在 进行 企业 架构 设计 的 时 候 ， 也 需要 像 房 屋 架 构 设 计 一 样 从 不 同 的 层次 去 描述 企业 的 特 
征 ， 如 图 1-3 所 示 。 











房屋 架构 设计 房屋 内 部 设计 
上 
| EN i A 





Wore 


图 1-3 企业 染 构 的 形象 比喻 


企业 架构 是 对 真实 世界 中 的 企业 的 业务 流程 和 IT 设施 的 抽象 ， 主 要 包括 企业 组 织 、 职 
能 、 业 务 流程 、IT 系统、 数据 、 网 络 部 署 等 的 完整 的 、 一 体 化 的 描述 。 企 业 架 构 反 映 了 企 
业 业 务 的 状况 ， 并 体现 了 业务 与 开 的 映射 关系 ， 明 确 各 类 IT 基础 设施 对 业务 的 文 撑 关系 。 
企业 架构 就 像 城 市 的 “总 体 规 划 蓝 图 ”， 在 它 的 指导 下 ， 各 个 还 系统 的 建设 得 以 有 序 进 行 。 
上 归根结底 ， 企 业 织 构 的 目的 是 将 蜂 企 业 的 、 和 去 散 的 业务 流程 优化 成 一 个 集成 的 环境 ， 同 时 帮 
助 企业 执 行业 务 战 略 及 IT 战略 规划 。 

如 图 1-4 所 示 ， 缺 乏 企业 架构 的 IT 系统 犹如 一 个 个 的 “竖井 ”结构 ， 各 个 部 门 难 以 保 
持 信 息 的 一 致 性 。 

企业 架构 统一 关键 的 企业 数据 ， 确 保 蜂 部 门 之 间 信 息 的 一 致 性 ， 保 证 了 数据 的 完整 性 和 
准确 性 ， 如 图 1-5 所 示 。 

为 了 满足 中 国人 民 银 行 或 者 中 国 银监会 的 监管 要 求 ， 增 强 核心 竞争 力 并 满足 现实 需求 ， 
很 多 金融 机 构 也 在 进行 企业 架构 的 建设 。 
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图 1-5 企业 架构 统一 关键 的 企业 数据 


。 监 管 要 求 

由 中 国 银监会 颁布 的 《中 国 银行 业 信息 科技 十 二 五 发 展 规划 监管 指导 意见 》 中 已 经 说 明了 
“信息 科技 规划 要 与 业务 战略 保持 一 致 ， 以 业务 架构 为 基础 ， 科 学 设计 应 用 架构 、 数 据 架构 和 
基础 架构 "， 这 说 明 政 府 监管 部 门 已 经 越 来 越 重视 对 规划 的 要 求 ， 同 时 也 提高 了 监管 力度 。 

。 增 强 核心 竞争 力 

企业 架构 可 以 保证 IT 系统 能 够 快速 响应 市 场 需求 ， 使 系统 设计 灵活 、 先 进 ， 具 备 良好 
的 扩展 性 。 同 时 IT 与 业务 的 有 效 融 合 ， 有 力 地 提升 了 企业 核心 竞争 力 ， 并 且 支 持 未 来 业务 
和 规模 的 扩张 。 

。 满 足 现实 需求 

企业 架构 可 以 帮助 企业 统一 各 类 概念 与 术语 ， 梳 理 现 有 系统 ， 提 取 可 重用 的 IT 资产 ， 
加 快 积累 ， 有 效 降低 应 用 的 开发 成 本 ， 提 高 设计 、 开 发 效率 和 质量 。 

三 、 企 业 架 构 的 价值 

企业 架构 的 价值 可 以 分 为 有 形 价值 和 无 形 价值 。 











企业 架构 的 有 形 价值 体现 在 以 下 几 个 方面 : 

1 ) 有 效 利用 现 有 的 架构 ， 缩 短 系统 开发 和 部 署 的 时 间 ， 构 建 灵 活 的 系统 环境 。 

2) 减少 系统 的 重复 建设 ,市 约 并 且 降 低 系 统 设计 和 开发 的 成 本 。 

3) 有 效 利用 现 有 资源 ,减少 设计 和 开发 人 员 的 学 习 周 期 。 

企业 架构 的 无 形 价值 体现 在 以 下 几 个 方面 : 

1) 有 效 达 成 业务 人 员 和 开 技术 人 员 之 间 的 共识 。 

2) 加 强 业 务 人 员 和 技术 人 员 的 沟通 。 

3) 保证 信息 的 集中 ， 增 加 知识 的 积累 。 

四 、 企 业 架 构 的 组 成 

企业 架构 的 过 程 实质 上 就 是 对 现实 世界 中 企业 的 业务 流程 和 开设 施 抽象 的 过 程 。 它 反 
映 了 企业 的 业务 流程 和 IT 架构 之 间 的 关系 。 

一 般 来 说 ， 企 业 架 构 包 括 业 务 架 构 和 IT 架构。 我 们 先 了 解 一 下 什么 是 业务 架构 ? 

1. 业务 架构 

一 个 优秀 的 架构 师 和 咨询 顾问 ， 不 在 于 他 有 多 厉害 的 技术 手段 ， 重 要 的 是 他 对 业务 的 理 
解 有 多 深 。 通 常 来 说 ， 业 务 架 构 可 以 作为 开 架构 的 输入 部 分 。 广 义 的 业务 架构 包括 产品 、 
销售 、 财 务 、 人 力 资 源 、 客 户 服务 等 企业 核心 的 业务 功能 和 职责 。 并 且 将 企业 战略 转化 成 企 
业 运 彰 的 目标 和 形式 ， 同 时 明确 相关 人 员 和 角色、 企业 资源 、 开 资源 和 服务 是 如 何 协调 和 部 
署 的 。 我 们 可 以 认为 由 企业 战略 决定 了 业务 架构 的 模式 ， 同 时 业务 架构 又 是 企业 战略 实现 的 
手段 之 一 。 

狭义 的 业务 架构 包含 了 企业 运营 活动 中 的 业务 策略 、 组 织 、 关 键 业 务 流程 、 组 织 架 构 以 
及 人 员 组 织 结构 等 内 容 。 我 们 对 业务 架构 有 以 下 两 方面 的 理解 . 

(D 业务 架构 是 对 业务 规划 的 一 种 描述 ， 主 要 解决 业务 布局 ， 以 及 业务 之 间 的 关系 ， 包 
括 制 定 什么 样 的 业务 策略 、 建 立 什 么 样 的 机 制 和 流程 等 内 容 。 

在 企业 架构 中 ， 业 务 架 构 是 核心 内 容 ， 是 企业 相对 稳定 的 部 分 ， 企 业 在 业务 架构 的 基础 
上 可 以 建立 相应 的 业务 流程 ， 不 断 满足 市 场 需求 ， 可 以 做 到 差异 化 的 竞争 。 业 务 架 构 决 定 了 
IT 架构 的 内 容 ， 同 时 开架 构 又 推动 了 业务 架构 的 规划 ， 它 们 是 相互 支持 和 促进 的 关系 。 

@) 业务 架构 定义 了 企业 如 何 创 造价 值 以 及 企业 内 部 的 协作 关系 。 它 描述 了 企业 如 何 满 
足 客 户 需求 ， 如 何 进 行 市 场 范 争 ， 如 何 达 成 与 其 他 企业 之 间 的 合作 关系 ， 如 何 建立 相应 的 业 
务 运营 体系 和 绩效 考核 等 内 容 。 

业务 架构 是 基于 企业 战略 的 ， 它 决定 了 企业 各 组 成 部 分 是 如 何 运 转 的 。 同 时 业务 架构 建 
立 了 企业 战略 和 日 党 运营 活动 中 的 关联 关系 ， 它 是 连接 企业 战略 和 具体 项 目 实施 的 一 座 桥 
深 ， 通 过 业务 架构 的 支持 ， 达 到 企业 战略 中 预先 设 定 的 战略 目标 。 

举例 来 说 ， 假 设 企业 的 战略 目标 是 将 成 本 降低 10% ， 要 实现 该 目标 ， 就 需要 对 现 有 的 
运营 机 制 进行 改进 ， 可 以 通过 在 线 自 助 服务 减少 人 力 成 本 ,或 者 是 优化 现 有 的 业务 流程 ， 提 
升 运营 效率 。 一 般 来 说 ,日 常 运 作 的 组 织 、 业 务 流程 和 IT 运营 系统 都 应 该 在 业务 架构 的 框 
架 下 运转 ， 如 果 没 有 业务 架构 ， 就 会 导致 运营 与 企业 战略 方 回 的 脱节 ， 使 每 个 业务 环节 存在 
缺乏 统一 调度 等 问题 。 

2. IT 架构 

IT 架构 是 对 企业 系统 的 开 规划 ， 是 建立 企业 信息 化 系统 的 综合 性 的 蓝图 ，IT 架构 可 以 
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帮助 企业 获得 最 优 的 投资 回报 ， 同 时 实现 业务 和 技术 接口 之 间 的 标准 化 ， 保 证 企业 运营 和 企 
业 战 略 之 间 的 一 致 性 。 

IT 架构 又 承担 了 开战 略 与 开 项 目 实施 、 执 行 的 桥 染 作用 ， 它 主要 包含 应 用 架构 、 数 据 
架构 和 技术 架构 。 

IT 架构 主要 解决 以 下 问题 . 

e 提供 明确 的 技术 解决 方案 ， 和 企业 的 战略 目标 保持 一 致 。 

e 保证 业务 需求 和 技术 文 持 之 间 转换 的 高 效 性 ， 实 现 企业 资源 的 最 优 配置 。 

IT 架构 的 原则 

(1) 法 律 法 规 遵循 原则 

系统 的 建设 应 该 符合 相关 法 律 法 规 的 要 求 ， 如 一 些 行业 法 规 要 求 、 信 息 安 全 要 求 等 方面 。 

(2) 架构 及 标准 遵循 原则 

对 于 未 来 系统 的 建设 ， 应 该 遵循 架构 及 标准 的 原则 。 例 如 ， 技 术 解 决 方案 、 功 能 范围 等 
方面 需要 和 企业 业务 战略 保持 一 致 。 

(3) 数据 整合 原则 

如 果 存 在 多 个 数据 源 ， 特 别 是 在 数据 处 理 、 存 储 和 数据 服务 过 程 中 有 相同 的 部 分 ， 抽 象 
出 来 形成 统一 的 数据 管理 模块 。 

(4) 资产 重用 原则 

在 系统 建设 过 程 中 涉及 的 所 有 设备 、 软 件 或 者 组 件 ， 都 需要 进行 管理 ， 特 别 需要 考虑 在 
未 来 系统 架构 过 程 中 这 些 资产 的 重用 性 ， 从 而 降低 系统 建设 的 成 本 。 

(5) 灵活 高 效 原 则 

系统 的 架构 需要 满足 一 定 的 灵活 性 ， 以 适应 外 部 环境 和 业务 需求 的 变化 。 同 时 ， 要 能 够 
保证 系统 处 理 数据 的 高 效 性 ， 以 满足 客户 的 各 种 需求 。 

IT 架构 的 作用 : 

e 理解 开 的 价值 。 帮 助 企 业 高 层 理解 IT 的 价值 ， 为 企业 未 来 的 发 展 提供 信息 化 文 持 。 

e 构建 灵活 的 环境 。 有 效 利 用 现 有 的 资源 和 已 有 的 架构 ， 缩 短 部 署 和 开发 的 时 间 ， 构 建 
灵活 的 环境 。 

e 降低 成 本 。 减 少 系统 重复 建设 ， 降 低 系 统 建设 成 本 。 

e 规避 各 种 风险 。 

e 有 效 地 促进 业务 和 和 开 之 间 的 融合 。 

e 加 强 沟 通 。 加 强 业 务 人 员 和 1IT 人 员 的 沟通 ， 建 立 共 同 交 流 的 平台 。 

IT 架构 包含 应 用 架构 、 数 据 架 构 和 技术 架构 。 下 面 分 别 进行 描述 。 

五 、 应 用 架构 

1. 什么 是 应 用 架构 ? 

应 用 架构 是 对 实现 业务 能 力 、 文 撑 业 务 发 展 的 应 用 功能 绪 构 化 的 描述 方法 。 

系统 的 应 用 架构 可 以 从 功能 和 应 用 两 个 不 同 的 视 党 角度 描述 系统 各 个 组 件 的 构成 以 
及 组 件 之 间 的 关系 。 功 能 组 件 模 型 侧重 于 业务 功能 ， 而 应 用 组 件 模型 则 侧重 于 应 用 系统 
设计 。 


应 用 架构 是 业务 染 构 和 技术 架构 之 间 的 “桥梁 ”， 如 图 1-6 所 未 。 























技术 架构 





2. 应 用 架构 的 目标 

e 为 业务 发 展 和 业务 战略 的 实现 提供 有 力 的 染 构 支撑 和 保障 。 

。 提供 对 业务 架构 的 应 用 支撑 。 

。 摘 述 应 用 系统 的 实现 方式 。 

。 摘 述 应 用 系统 间 的 交互 天 系 。 

e 描述 应 用 与 核心 业务 的 对 应 关系 。 

3. 应 用 架构 的 原则 

应 用 染 构 的 原则 主要 包括 业务 前 脆性 、 应 用 企业 化 、 系 统 平台 化 、 系 统 整 合 化 和 适度 松 
磋 合 。 

。 业务 前 脆性 

能 够 适应 未 来 业务 发 展 的 要 求 ， 保 证 应 用 架构 对 于 企业 战略 和 业务 染 构 的 支持 能 力 ， 应 用 淋 
构 应 该 具备 一 定 的 前 有 眶 性 ， 同 时 保证 染 构 的 灵活 性 和 可 扩展 性 。 应 用 架构 在 窗 六 现 有 业务 的 基础 
上 ,能够 满足 未 来 业务 发 展 的 可 扩展 性 ， 并 且 考 虑 现 有 的 资源 配置 ， 保 证 染 构 的 可 沙 地 性 。 

。 应 用 企业 化 

通过 应 用 架构 的 设计 ， 解 决 系统 多 、 功 能 分 散 或 者 界限 不 清晰 的 问题 ， 推 动 企 业 进行 集 
中 的 应 用 建设 。 并 且 全 面 考虑 到 业务 的 需求 ， 增 强 对 外 服务 相关 的 组 件 设 计 ， 提 升 系 统 对 外 
服务 的 能 
。 系统 平台 化 
将 相同 的 业务 逻辑 抽象 出 来 ， 形 成 公共 的 服务 组 件 ， 采 用 平台 化 的 案 上 略 ， 形 成 基础 平 
， 并 且 针 对 业务 功能 的 差 寞 ， 进 行 个 性 化 的 配置 和 开发 ， 从 而 实现 系统 的 灵活 性 和 扩展 
， 文 持 快 速 产品 的 研发 。 
。 系统 整合 化 
将 相同 的 业务 组 件 抽象 出 来 ， 统 一 建设 ， 在 此 基础 上 ， 考 虑 系统 差异 化 的 需求 。 例 如 数 
据 报 送 规则 的 差异 、 产 品 加 工 逻 辑 的 差异 和 服务 对 象 的 差异 等 。 实 现 机 构 、 用 户 、 权 限 等 公 
共 组 件 和 技术 组 件 的 整合 。 

。 适度 松 灿 合 

减少 组 件 间 的 相互 依赖 ， 提 高 系统 的 故障 防范 和 隅 离 的 能 力 ， 同 时 参考 最 佳 实践 ， 结 合 
业务 的 特点 ， 合 理 划 分 应 用 架构 的 各 个 层次 ， 提 高 组 件 的 内 聚 性 。 

4. 创建 应 用 架构 的 整体 步 又 

如 图 1-7 所 示 。 以 业务 战略 为 出 发 点 ， 形 成 企业 的 业务 能 力 和 组 件 化 业务 模型 ， 参 考 
业务 知 求 ， 枝 理 未 来 应 用 功能 模型 ， 在 应 用 架构 设计 原则 的 指导 下 ， 形 成 未 来 的 应 用 染 构 ， 
最 后 进行 未 来 应 用 场景 的 验证 。 
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图 1-7 创建 应 用 架构 的 整体 步 又 


5. 应 用 架构 相关 案例 

某 金融 机 构 应 用 架构 示例 ， 如 下 图 所 示 : 

(1) 客户 服务 层 

客户 可 以 包括 对 公 客户 和 个 人 客户 ， 包 括 综 合 前 端 服务 平台 、 网 上 银行 系统 、 电 话 银 行 
系统 、 上 月 助 服务 、 手 机 银行 系统 等 内 容 。 

(2) 渠道 整合 层 

渠道 整合 层 主要 包括 综合 前 置 平台 ，ECIF 等 。 

(3) 业务 处 理 层 

业务 处 理 层 主要 包括 : 总 账 系统 、 核 心 业务 系 统 、 信 和 贷 管 理 等 。 其 中 总 账 系统 主要 是 对 
整个 银行 财务 状况 的 管理 。 核 心 业 务 系统 包括 总 账 接 口 、 瘦 核心 和 应 用 接口 。 总 账 系统 通过 
总 账 接口 与 核心 业务 系统 相连 。 瘦 核心 主要 是 银行 的 会 计 核算 功能 ， 账 户 管理 和 客户 信息 管 
理 等 。 

应 用 架构 不 是 本 书 重 点 ， 所 以 不 做 袭 述 。 

六 、 数 据 架 构 

1. 什么 是 数据 架构 

从 概念 上 来 说 ， 数 据 架 构 是 指 与 数据 相关 的 各 种 架构 组 件 的 排列 顺序 ， 其 中 架构 组 件 主 
要 实现 数据 的 存储 、 交 互 、 分 布 、 流 转 和 应 用 等 功能 。 

数据 淋 构 的 核心 主要 包括 数据 层次 的 划分 、 数 据 的 分 布 、 各 层次 的 数据 模型 和 数据 的 转 
换 等 。 数 据 架 构 是 企业 架构 中 最 重要 的 组 成 部 分 之 一 ， 也 是 本 书 的 重点 内 容 之 一 。 

数据 架构 主要 研究 和 解决 如 何 管理 和 使 用 数据 。 主 要 内 容 包括 数据 从 源 系统 经 过 各 种 处 
理 、 加 工 而 达到 目标 系统 的 布局 与 流向 的 框架 结构 。 

数据 架构 的 目标 是 为 了 实现 企业 数据 的 标准 化 、 一 致 性 和 准确 性 ， 在 此 基础 上 ， 充 
分 挖掘 数据 的 价值 ， 有 效 支 持 企业 的 数据 管理 和 经 营 决 策 分 析 ， 实 现 企业 数据 的 统一 规 
划 体 系 。 

数据 架构 可 以 帮助 企业 消除 信息 了 扳 咏 ， 建 立 一 个 共享 、 通 用 的 企业 级 基础 数据 平台 。 

2. 数据 架构 包含 的 内 容 

数据 架构 主要 包含 数据 定义 、 数 据 分 类 、 数 据 分 布 、 数 据 CRUD 等 内 容 。 
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e 数据 定义 

所 谓 数据 定义 就 是 数据 模型 。 数 据 模型 是 指 用 实体 、 属 性 及 其 关系 对 企业 生产 运行 过 程 
中 涉及 的 所 有 业务 概念 和 逻辑 规则 进行 统一 的 定义 、 命 名 ， 包 括 数据 概念 模型 、 数 据 逻 辑 模 
型 、 数 据 物理 模型 。 

数据 模型 是 数据 架构 规划 中 最 重要 的 内 容 之 一 ， 良 好 的 数据 模型 可 以 反映 业务 模式 的 本 
质 ， 确 保 数 据 染 构 为 业务 需求 提供 全 面 、 一 人 怪 、 完 整 的 高 质量 数据 ， 从 架构 规划 以 及 设计 层 
面 ， 明 确 数据 概念 模型 ， 制 定数 据 逻 辑 模型 和 物理 模型 。 数 据 模 型 是 业务 人 员 、IT 人 员 进 
行 沟通 的 一 套 霹 言 。 

e 数据 分 类 

数据 分 类 是 根据 业务 特征 对 数据 进行 归 类 和 划分 ， 用 层级 列表 的 方式 展现 业务 的 规则 ， 
数据 分 类 的 规范 需要 满足 各 种 数据 需求 对 数据 组 织 的 要 求 ， 它 独立 于 具体 的 数据 模型 和 数据 
分 布 。 

e 数据 分 布 

数据 分 布 包括 数据 的 业务 分 布 与 数据 的 系统 分 布 。 数 据 分 布 主要 分 析 数 据 在 业务 各 个 环 
节 中 的 创建 、 引用、 更 新 和 删除 ， 并 且 根 据 业 务 对 数据 的 处 理 特点 ， 规 划 合 理 的 数据 分 布 ， 
考虑 相关 的 数据 流向 ， 以 满足 相关 的 业务 需求 。 

在 规划 设计 数据 分 布 的 时 候 ， 我 们 需要 考虑 以 下 几 个 方面 。 

(明确 系统 不 同位 置 之 间 的 数据 定位 ， 以 及 数据 的 内 容 和 数据 流 问 。 

(考虑 海量 数据 在 不 同 数 据 库 之 间 的 快速 增 量 迁移 。 

(3) 考虑 数据 的 快速 加 工 。 

出 能 够 适应 数据 采集 的 多 元 化 。 

(3 需要 考虑 特殊 情况 下 的 数据 纠 错 更 

e 数据 CRUD 

CRUD 是 建立 (Create)、 读 取 (Read)、 更 新 (Update) 及 删除 (Delete) 这 4 项 操作 的 
英文 缩写 。 数 据 的 CRUD 可 以 明确 系统 核心 的 数据 由 哪些 系统 产生 ， 哪 些 系 统 有 权限 读 取 
这 些 核心 数据 ， 而 这 些 数据 的 更 新 和 删除 的 权限 属于 哪些 系统 ， 数 据 CRUD 是 为 了 确保 数 
据 的 安全 性 和 一 致 性 。 

e。 数据 管控 

数据 管控 包含 数据 质量 管理 、 数 据 生 命 周 期 管理 、 数 据 标准 管理 、 元 数据 管理 等 多 个 管 
控 专 项 ， 如 图 1-8 所 示 。 























数据 生命 周期 管理 数据 标准 管理 元 数据 管理 


数据 质量 管理 





图 1-8 数据 管控 包含 的 内 容 
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理 是 循环 管理 的 过 程 ， 目 的 是 通过 提升 数据 的 使 用 价值 ， 为 系统 最 得 经 鹿 效 益 。 

® 数据 生命 周期 管理 

数据 生命 周期 管理 是 按照 数据 的 业务 属性 划分 数据 的 几 个 阶段 : 数据 的 创建 、 数 据 的 使 
用 、 效 据 的 归档 和 数据 的 销毁 。 

数据 生命 周期 管理 的 目的 是 为 了 满足 对 历史 数据 查询 的 要 求 ， 减 少数 据 元 余 ， 提 高 数据 
的 一 致 性 ， 并 且 捉 升 系统 的 性 能 和 啊 应 速度 。 减 少数 据 存 储 、 运 维 等 方面 的 基础 设施 投入 。 

® 效 据 祭 准 管理 

数据 标准 是 统一 对 数据 的 理解 和 使 用 ， 为 数据 的 业务 属性 、 业 务 规则 、 管 理 属 性 和 技术 
属性 制定 统一 的 规范 。 

通过 数据 标准 管理 ， 可 以 加 强 对 业务 的 标准 化 工作 ， 强 化 对 业务 的 管理 ， 完 成 对 重点 数 
据 的 统一 管理 。 数 据 标 准 管理 的 原则 : 保证 数据 标准 命名 、 编 码 的 唯一 性 ， 维 护 数据 标准 的 
权威 性 和 稳定 性 ， 保 证 数据 标准 的 准确 性 和 可 执行 性 。 

® 元 数据 管理 

元 数据 管理 是 指 管理 数据 的 数据 ， 负 责 记 录 和 管理 系统 中 所 有 数据 的 定义 、 规 则 、 规 范 
和 流程 。 元 数据 管理 可 以 清晰 、 二 观 地 了 解数 据 的 来 源 、 变 化 过 程 等 信息 。 当 数据 发 生变 化 
时 ， 用 户 可 以 信 助 元 数据 管理 工具 分 析出 这 些 数 据 变 化 市 来 的 影 啊 。 

3. 数据 涤 构 的 目标 

实现 企业 数据 的 标准 化 、 一 致 性、 准确 性 和 可 靠 性 。 制 定 实 现 企业 数据 统一 管理 的 规划 
体系 。 有 效 文 撑 企 业 信 息 数 据 管理 和 经 党 决策 分 析 。 

4. 创建 数据 架构 的 整体 步 又 

数据 架构 对 于 企业 有 效 地 分 配 、 部 善 和 使 用 数据 ， 实 现 数 据 的 组 织 、 共 享 ， 从 而 保证 数 
据 在 各 系统 之 间 的 一 致 性 、 有 效 性 和 完整 性 都 有 重要 的 指导 意义 。 

创建 数据 架构 的 整体 步 又 ( 见 图 1-9) 包括 在 了 解数 据 架 构 现状 的 基础 上 ， 人 参考 系统 需 
求 ， 借 鉴 行业 先进 的 数据 分 类 方法 和 参考 架构 ,分别 从 三 个 体系 进行 数据 架构 的 规划 。 


最 佳 实践 
































图 1-9 创建 数据 架构 的 整体 步 又 
5. 数据 架构 规划 工作 思路 及 方法 
首 完 ， 数 据 架 构 从 业务 特征 和 业务 需求 出 发 ， 明 确 数 据 主 题 域 的 划分 和 数据 的 分 类 ， 主 
题 域 是 从 较 高 层级 对 业务 进行 抽象 和 归纳 ， 是 从 概念 层面 上 对 系统 的 全 面 描述 ， 需 要 考虑 业 
务 的 扩展 性 。 主 题 域 划 定 后 ， 一 般 较 少 变更 。 
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其 次 ， 进 行 数据 模型 的 设计 。 对 于 目标 数据 架构 来 说 ， 一 般 流 程 是 参考 行业 内 先进 的 架 
构 经 验 进 行 目 标 架 构 的 设计 ， 包 括 对 数据 存储 、 分 布 和 流转 的 设计 。 
最 后 ， 对 数据 分 布 和 流转 进行 场景 验证 ， 同 时 需要 考虑 各 个 阶段 的 数据 管控 的 要 求 。 
具体 内 容 如 图 1-10 所 示 。 
需求 和 业务 特征 一 一 > 数据 主题 域 一 一 > 数据 分 类 。 一 > ”数据 模型 
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图 1-10 数据 架构 规划 工作 思路 及 方法 


6. 数据 染 构 原则 

数据 架构 的 原则 主要 包括 灵活 性 原则 、 高 效 性 原则 、 可 扩展 性 原则 、 数 据 共 主 原 则 、 数 
据 可 用 性 原则 、 数 据 定 义 标准 原则 、 数 据 安全 性 原则 。 

e 灵活 性 原则 

对 于 数据 的 组 织 及 其 染 构 的 划分 要 充分 考虑 灵活 性 。 例 如 ， 源 数据 采集 格式 需要 考虑 不 
同业 务 的 需求 ， 能 够 灵活 地 适应 业务 的 变更 。 

。 局 效 性 原则 

需要 考虑 数据 校 验 和 数据 加 载 的 高 效 性 。 例 如 ， 各 个 数据 库 之 间 的 数据 迁移 、 产 品 加 工 
和 产品 的 快速 生成 都 需要 考虑 高 效 性 

e 可 扩展 性 原则 

数据 架构 整体 规划 要 充分 考虑 系统 未 来 的 可 扩展 性 ， 在 新 技术 或 者 新 需求 、 新 业务 出 现 
时 ， 能 够 尽量 减少 数据 架构 的 变更 。 

e 数据 共 圣 原则 

数据 在 系统 内 可 以 共 圣 ， 相 同 的 数据 指标 知 要 如 循 唯一 性 ， 强 化 对 公共 知 求 的 加 工 。 

e 效 据 可 用 性 原则 

对 数据 的 采集 以 能 够 文 择 业务 需求 为 基础 。 

e 效 据 定 义 标准 原则 

数据 项 必须 有 易 理 解 的 业务 定义 ,使 用 户 理 解数 据 的 意义 ,同时 确保 数据 的 定义 休 循 统 
一 标准 ， 而 且 数 据 标 准 需要 满足 完整 性 、 正 确 性 、 一 致 性 等 要 求 。 

e 效 据 安全 性 原则 

数据 按照 非 功 能 性 要 求 ， 定 义 数 据 的 安全 级 别 、 安 全 管理 等 级 。 并 且 区 分 敏感 数据 和 非 
敏感 数据 。 
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7. 数据 染 构 相关 案例 

数据 架构 从 数据 的 产生 、 加 工 、 使 用 和 管理 的 视角 来 描述 业务 系统 。 数 据 架 构 的 规划 主 
要 包括 以 下 几 个 方面 : 

1 ) 数据 分 类 和 数据 模型 化 ， 从 数据 业务 特性 出 发 ， 规 划 数 据 主题 域 ， 并 且 在 数据 主题 
域 的 基础 上 对 数据 进一步 分 类 。 然 后 根据 数据 分 类 ， 对 关键 属性 和 核心 数据 关系 模型 化 ， 形 
成 高 阶 的 数据 模型 。 

2) 根据 行业 先进 的 数据 染 构 ， 结 合 业 务 数 据 的 加 工 特征 ， 重 点 考虑 数据 架构 的 灵活 性 、 
可 扩展 性 和 高 效 性 等 儿 个 方面 ， 规 划 目 标 数 据 架 构 。 

3) 根据 数据 分 类 ， 规 划 数 据 分 类 在 目标 架构 人 逻辑 数据 库存 储 上 的 分 布 与 流转 ， 从 而 对 
目标 数据 染 构 进行 验证 。 

4) 结合 业务 管理 要 求 ， 规 划 系 统 的 数据 治理 架构 。 

七 、 技 术 架 构 

1. 技术 架构 概念 

技术 架构 是 并 架构 中 比较 底层 的 架构 ， 它 定义 了 如 何 建立 一 个 IT 运行 环境 来 文 持 数据 
架构 和 应 用 架构 。 

技术 架构 主要 描述 业务 、 数 据 、 应 用 服务 部 署 的 基础 设施 能 力 ， 通 过 技术 架构 可 以 建立 
一 个 全 平 台 , 涉及 对 技术 的 采用 、 綦 础 设施 的 建立 、 产 品 的 选择 、 系 统 的 管理 等 方面 。 

技术 架构 需要 考虑 业务 架构 、 数 据 架 构 和 应 用 架构 ， 包 括 一 些 软 硬件、 网 络 技术 等 方 
面 。 技 术 架 构 的 设计 目标 就 是 参考 成 如 的 技术 规 郊 ， 打 造 一 个 安全 、 可 徘 、 灵 活 、 另 维护 ， 
并 且 文 持 业 务 连 续 性 的 I 技术 架构 。 

2. 技术 架构 的 目标 

1) 针对 未 来 系统 的 技术 染 构 ， 制 定 技 术 架 构 设 计 规 范 、 实 施 规 划 、 决 策 文 持 等 内 容 。 

2) 通过 技术 架构 ， 提 高 系统 的 灵活 性 、 扩 展 性 。 

3) 通过 标准 化 、 组 件 化 和 平台 化 技术 打造 灵活 、 可 扩展 的 平台 ， 这 样 可 以 快速 地 满足 
业务 的 变化 。 

3. 技术 组 件 的 识别 

可 以 根据 技术 架构 的 相关 肥 例 和 业务 组 件 需 求 ， 分 层次 去 识别 系统 的 技术 组 件 。 技 术 组 件 的 
描述 见 表 1-1。 














表 1-1 技术 组 件 的 描述 














技术 组 件 名 称 技术 组 件 功能 描述 
调度 服务 提供 统一 的 任务 调度 服务 接口 ， 实 现 基于 平台 的 作业 调度 管理 功能 
ee 元 数据 是 用 于 描述 数据 及 其 环境 的 数据 。 一 般 来 说 ， 它 有 两 方 面 的 用 途 ， 即 业务 元 
数据 和 技术 元 数据 
加 解密 提供 标准 的 加 解密 技术 及 接口 ， 能 够 满足 数据 安全 传输 、 存 储 的 要 求 
缓存 管理 基于 成 熟 的 缓存 框架 ， 同 时 提供 数据 缓存 管理 ， 提 高 数据 的 使 用 和 存储 效率 


4. 拉 术 架构 原则 

拉 术 染 构 的 原则 如 图 1-11 所 示 ， 主 要 包括 以 下 几 个 方面 的 内 容 : 

(1) 安全 、 可 徘 性 原则 

从 应 用 组 件 到 物理 基础 以 构 ， 需 要 充分 考虑 系统 的 可 用 性 ， 以 你 证 系统 运行 的 连续 性 和 
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符合 行业 信息 化 建设 平稳 过 小 
相关 规范 


采用 成 熟 技 术 





灵活 及 扩展 


资产 复 用 
图 1-11 技术 架构 原则 





完整 性 。 安 全 性 应 该 遵循 相关 安全 政策 、 标 准 和 法 规 。 

(2) 灵活 性 及 扩展 性 原则 

满足 灵活 加 工 产 品 的 要 求 ， 业务 变 更 或 新 功能 开发 能 够 在 短 时 间 内 完成 ， 能 够 适应 业务 
量 的 变化 。 

(3) 资产 复 用 原则 

对 已 有 的 成 熟 技 术 、 规 划 经 验 等 相关 资产 进行 提炼 和 重用 ， 降 低 开 发 与 维护 的 成 本 。 抽 
取 公 共 技 术 组 件 ， 使 架构 能 够 满足 不 同业 务 之 间 差 异化 的 需求 ， 支 持 业 务 的 可 持续 发 展 。 

(4) 采用 成 熟 技 术 原 则 

选用 主流 技术 ,采用 成 熟 的 技术 平台 和 开发 工具 ， 引 入 已 验证 过 的 开发 框架 ， 提 升 开 发 
效率 ， 平 衡 成 熟 产 品 技术 和 自主 开发 能 力 。 基 于 成 熟 产 品 及 实施 案例 ， 选 择 合适 的 技术 
路 线 。 

(5) 平稳 过 滤 原则 

能 够 支撑 业务 的 连续 性 ， 保 证 未 来 系统 的 过 渡 和 切换 必须 是 阶段 化 可 控 的 和 低 风 险 的 。 

(6) 符合 行业 信息 化 建设 相关 规范 

遵循 统一 认证 规范 、 容 灾 规 范 、 安 全 规范 、 广 域 网 安全 规范 等 ， 加 强 系 统 设 计 、 开 发 等 
规范 管理 ， 在 已 有 规范 的 基础 上 形成 并 完善 整体 架构 方案 。 

5. 技术 架构 规划 工作 思路 及 方法 

技术 架构 规划 的 工作 思路 和 方法 如 图 1-12 所 示 。 


应 用 组 件 模型 于 系统 的 划分 
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图 1-12 技术 架构 规划 工作 思路 及 方法 
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1) 参考 先进 的 技术 架构 ， 结 合 现 有 的 IT 环境 ， 采 用 分 层 的 方式 设计 目标 技术 架构 。 目 
标 技术 架构 提供 高 度 的 灵活 性 和 可 扩展 性 。 

2) 参考 技术 架构 和 已 定义 的 业务 组 件 需求 ， 分 层次 识别 未 来 系统 关键 技术 组 件 。 

3) 根据 应 用 架构 组 件 分 组 ， 按 照 业 务 特点 和 技术 实现 考量 ， 划 分 子 系统 。 

4) 根据 技术 组 件 的 服务 能 力 ， 按 照 SOA 的 思路 划分 为 几 个 服务 平台 ， 为 规划 子 系统 提 
供 基础 的 公共 服务 。 

5) 子 系 统 的 划分 也 为 了 验证 服务 平台 中 的 服务 能 力 是 否 有 缺失 。 间 接 验 证 技术 组 件 是 
否 有 缺失 。 

6) 提供 标准 化 服务 的 技术 组 件 与 子 系统 的 结合 ， 形 成 完整 的 目标 技术 架构 。 

7) 最 后 参考 最 佳 实 践 ， 对 逻辑 部 署 和 物理 部 署 进行 规划 。 

技术 染 构 主要 包括 安全 管理 、 集 成 服务 、 接 入 渠道 、 公 共 服 务 等 方面 的 内 容 ， 如 
图 1-13 所 示 。 











接 入 渠道 





图 1-13 技术 架构 


(1) 安全 管理 

安全 管理 主要 包括 目录 服务 、 身 份 管理 、 用 户 认证 & 授权 、 单 点 登录 、 访 问 控 制 、 审 
计 服 务 、 数 据 安 全 、PKI、 操 作 安 全 。 

(2) 集成 服务 

集成 服务 主要 包括 内 、 外 部 接口 ， 数 据 整合 和 拆 分 。 

(3) 接 入 渠道 

接 入 渠道 主要 包括 客服 中 心 、 信 件 、E - mail、 互 联网 、 手 机 。 

(4) 公共 服务 

公共 服务 主要 包括 信息 服务 总 线 、 文 件 交 换 服务 、 流 程 引 警 、 规 则 引擎 、 批 量 作 业 服 
务 、 审 计 服 务 负载 均衡 、 存 储 管理 及 恢复 。 

其 中 主要 的 技术 组 件 包括 网 络 服务 、 系 统管 理 服 务 、 测 试 和 开发 服务 、 平 台 服 务 等 内 容 。 

(1) 网 络 服务 

网 络 服务 主要 包括 网 络 管理 、 网 络 安全 、 传 输 服 务 、 网 络 协 以 、 网 关 服 务 、 路 由 服务 、 
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网 络 加 速 服 务 、 内 容 网 络 服务 。 

(2) 系统 管理 服务 

系统 管理 服务 主要 包括 配置 管理 、 网 络 管理 、 软 件 分 发 、 问 题 管理 、 账 户 管理 、 高 可 用 
性 管理 、 监 控 及 其 优化 管理 。 

(3) 测试 和 开发 服务 

测试 和 开发 服务 主要 包括 开发 环境 、 开 发 工具 、 优 先 级 管理 、 测 试 环境 。 

(4)> 下 全 服务 

平台 服务 主要 包括 数据 库 服务 、 打 印 服务 、 其 他 设备 服务 、 机 房 基本 设备 、UPS 、 布 线 
等 拉 术 、 服 务 人 各 平台 染 构 、 高 可 用 性 涤 构 、 灾 难 备份 机 制 。 

技术 架构 从 应 用 架构 和 数据 染 构 实现 的 角度 进行 规划 。 拉 术 架 构 规 划 过 程 主要 包括 以 下 
几 个 步 又 。 

1] ) 参考 技术 架构 ， 结 合 现状 分 析 和 技术 架构 原则 ， 识 别 各 种 技术 组 件 。 

这 些 组 件 可 能 是 应 用 架构 或 数据 架构 中 某 些 组 件 的 功能 实现 ， 也 可 能 是 作为 一 个 系统 必 
须 具备 的 技术 组 件 。 针 对 这 些 技术 组 件 ， 考 虑 各 种 成 熟 软 件 实现 技术 。 

2) 根据 子 系统 划分 原则 ， 将 系统 划分 为 多 个 子 系统 和 技术 平台 。 

这 些 技术 平台 由 技术 组 件 构 成 。 通 过 技术 平台 构建 多 个 子 系统 。 针 对 每 个 子 系统 ， 定 义 
包含 的 应 用 组 件 和 逻辑 数据 存储 ， 并 描述 每 个 子 系统 与 技术 组 件 之 间 的 关系 ， 保 证 技术 平台 
所 包含 的 技术 组 件 能 够 很 好 地 文 持 所 有 应 用 组 件 的 技术 实现 。 

3) 系统 的 实现 一 般 分 为 展现 交互 层 、 逻 辑 执 行 层 和 数据 存储 层 。 

在 系统 部 署 上 由 不 同 的 软件 技术 文 持 。 近 照 方法 论 ， 通 稼 将 部 署 单 元 分 为 三 大 类 : 展现 
部 署 单元 、 执 行 部 团 单 元 和 数据 部 蜀 单 元 ， 根 据 多 个 子 系统 和 技术 平台 所 包含 的 组 件 ， 识 别 
对 应 的 部 蜀 单 元 。 并 根据 组 件 之 间 的 关系 定义 部 蜀 单 元 之 间 的 关系 。 

4) 根据 位 置 、 用 户 分 布 、 网 络 连 接 及 接 入 点 每 情况 ,结合 参考 染 构 和 用 户 的 全 环境 ， 
规划 系统 的 逻辑 架构 。 

5 ) 参考 逻辑 涤 构 ， 结 合 丰 实 的 全 环 境 ， 包 括 开发、 测试、 生产 环境 ， 可 以 采用 诸如 虚 
拟 化 或 者 资源 池 技 术 ， 规 划 物 理 涤 构 和 基础 淋 构 。 

6. 技术 架构 相关 案例 

菏 金 融 机 构 技 术 架 构 相 关 案 例如 图 1-14 所 示 。 

其 中 技术 架构 包括 : 渠道 层 、 应 用 服务 层 、 公 共 技 术 服务 层 、 集 成 服务 层 、 软 件 服务 层 
和 基础 设施 层 。 人 例如， 软件 服务 层 中 的 内 容 管 理 是 为 未 来 系统 提供 更 广泛 的 非 结构 化 内 容 进 
行 存 储 、 访 问 和 管理 ， 包 括 业 务 中 涉及 的 影像 ， 各 种 格式 的 办 公文 要 ，XML、HTML 文件 ， 
各 类 报表 、 图 像 和 音频 /视频 信息 等 。 

八 、 企 业 总 体 规划 总 结 

企业 总 体 规划 包括 企业 战略 和 企业 架构 两 个 部 分 。 企 业 战 略 描述 的 是 企业 的 目标 。 企 业 
涤 构 描述 的 是 业务 流程 、 运 宫 模式 、 关 键 业 务 指标 和 企业 IT 系统 需要 完成 哪些 工作 等 内 容 。 

企业 战略 决定 企业 架构 的 模型 ， 同 时 企业 架构 又 支持 企业 战略 的 实现 。 如 末 我 们 把 企业 
战略 看 成 是 一 个 城市 的 发 展 方向 和 战略 目标 ， 包 括 对 城市 的 定位 等 方面 。 那 么 企业 如 构 就 是 
对 城市 的 设计 规划 ， 包 括 城市 的 组 成 ， 每 部 分 是 如 何 构建 的 ， 以 及 它们 之 间 的 关系 是 什么 。 

从 本 质 上 来 讲 , 企业 架构 是 连接 企业 战略 和 1 了 IT 项 目 实 施 的 桥梁 。 通 过 企业 架构 的 规划 ， 
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图 1-14 基金 融 机 构 技 术 染 构 案例 


包括 在 业务 战略 和 本 战略 理 解 的 基础 上 ， 进 行 目 项 回 下 的 设计 ， 形 成 稳定 的 全 环境 ， 从 而 
将 战略 、 业 务 流程 和 具体 的 IT 规划 三 者 之 间 紧 密 的 联系 起 来 。 

我 们 参考 企业 架构 的 方法 论 ，IT 架构 是 业务 发 展 和 业务 战略 的 实现 提供 架构 支撑 和 保障 。 
业务 染 构 可 以 作为 整个 IT 染 构 的 核心 输入 。 业 务 架构 和 本 架构 是 相互 依赖 ， 相 互 促进 的 天 
系 。 在 IT 系统 的 设计 和 开发 过 程 中 ， 业 务 染 构 可 以 提供 完整 的 业务 视图 和 业务 要 求 ， 指 导 开 
殿 构 的 实现 ， 同 时 全 架构 保障 业务 架构 的 实现 。 业 务 架 构 主 要 包含 业务 流程 、 业 务 对 和 象 、 
地 域 和 价值 管理 的 撒 述 ， 而 全 架构 主要 包含 了 应 用 架构 、 数 据 染 构 和 技术 架构 等 内 容 。 

业务 染 构 对 应 用 架构 和 数据 染 构 提出 业务 需求 。 而 应 用 染 构 为 业务 染 构 提供 应 用 支持 ， 
数据 染 构 为 业务 架构 提供 数据 支持 。 同 时 技术 架构 是 数据 染 构 、 应 用 染 构 到 IT 系统 的 落地 
和 实现 。 应 用 染 构 和 数据 架构 是 业务 染 构 落地 到 系统 染 构 的 一 个 重要 阶段 。 在 企业 染 构 中 ， 
数据 架构 是 核心 ， 也 是 本 书 的 重点 内 容 之 一 ， 因 为 数据 是 信息 系统 的 重要 资源 ， 在 构建 开 
以 构 的 时 候 ， 首 移 考 感 数 据 录 构 对 业务 的 文 持 ， 理 想 的 开 梁 构 是 数据 驱动 的 。 数 据 架 构 帮 
助 企业 消除 信息 孤岛， 建立 一 个 共 至 、 一 致 的 企业 数据 基础 平台 。 

应 用 架构 是 为 业务 提供 哪些 应 用 和 功能 ， 它 主要 连接 业务 染 构 中 的 流程 、 业 务 组 件 、 功 
能 和 人 员 等 ， 同 时 也 能 连接 数据 架构 中 的 数据 管理 部 分 ， 还 能 够 提出 对 技术 架构 和 基础 设施 
的 要 求 。 应 用 架构 有 看 承上启下 的 作用 ， 可 以 避免 各 个 部 门 从 目 己 的 角度 出 发 ,建立 很 多 重 
复 的 ， 难 以 共 至 的 应 用 系统 ， 应 用 染 构 在 开 染 构 中 也 发 挥 者 重要 的 作用 。 

技术 架构 是 IT 染 构 中 比较 压 层 的 架构 ， 它 用 来 支持 数据 和 应 用 ， 以 保证 业务 的 正常 运 
转 。 技 术 染 构 需 要 考虑 技术 的 采用 ， 未 来 搁 术 的 发 展 等 因 系 。 





























1.2 国内 商业 银行 战略 规划 和 架构 状况 剖析 


在 过 去 10 年 间 ， 我 国 银行 业 在 信息 化 建设 过 程 中 , 已 经 基本 形成 了 完整 的 框架 体系 ， 
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建成 了 面向 业务 的 新 一 代 综合 业务 系统 。 特 别 是 “十 一 五 ”期 间 ， 以 四 大 行 ( 工 、 农 、 建 、 
中 ) 为 代表 的 国有 银行 ， 相 继 提出 了 建设 国际 一 流 银 行 的 战略 目标 ， 其 他 股份 制 银 行 也 提 
出 了 相应 的 发 展 战 略 ， 逐 步 完善 了 符合 本 行 特色 的 战略 和 架构 。 

总 体 来 说 ， 无 论 是 国有 银行 还 是 股份 制 商 业 银行 ， 都 已 经 认识 到 了 战略 规划 和 架构 的 重 
要 性 ， 同 时 整个 银行 业 基 本 上 实现 了 核心 业务 的 “数据 大 集中 ”， 提 升 了 银行 的 抗灾 难 能 
力 ， 并 且 随 着 银行 业务 的 增加 ， 对 产品 的 创新 和 业务 流程 的 改进 提出 了 更 高 的 要 求 ， 通 过 一 
系列 的 建设 和 升级 工作 ， 商 业 银 行 的 业务 功能 逐步 完善 ， 效 益 不 断 增 加 。 

但 是 随 春 银行 信息 化 建设 的 深 和 人 发 展 ， 面 临 的 问题 也 逐渐 又 露出 来 ， 在 应 用 系统 建设 方 
面 ， 各 个 银行 痢 奶 求 业务 系统 的 快速 开发 和 产品 的 快速 上 市 ， 业务 部 门 和 技术 部 门 之 间 存 在 
着 扳 立 的 现象 ， 造 成 了 部 分 银行 的 系统 数 晶 繁多， 系统 之 间 缺 少 企业 级 整体 架构 的 思想 ， 如 


图 1-15 所 示 。 
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图 1-15 银行 信息 化 面临 的 问题 


在 数据 架构 方面 ， 数 据 被 分 散 到 各 个 应 用 系统 之 间 ， 数 据 质 量 较 差 ， 数据 的 使 用 缺少 规 
汇 。 同 时 部 分 银行 对 战略 规划 的 概念 和 认识 还 缺少 统一 性 ， 很 多 银行 部 处 于 比较 片面 的 阶 
段 ， 从 而 影响 战略 规划 对 日 沼 系 统 建设 的 指导 作用 ， 因 为 战略 规划 和 业务 规划 的 小 合 度 不 
高 ， 缺 少 IT 战略 对 于 业务 战略 的 支持 和 业务 战略 对 IT 战略 的 指导 。 

因此 ， 在 战略 规划 的 过 程 中 ,需要 业务 部 门 和 IT 部门 共同 参与 ， 相 互 合 作 ， 达 成 业 
务 和 本 技术 部 门 的 共识 。 业 务 部 门 和 技术 部 门 总 是 存在 着 看 不 见 的 鸿沟 ， 业 务 部 门 经 沼 
抱 息 技术 无 法 适应 市 场 的 需求 ， 而 技术 部 门 则 经 党 抱 息 业务 需求 的 不 确定 ,需求 变更 过 
于 频繁 。 作 为 技术 部 门 第 第 被 动 地 接收 业务 需求 ， 疲 于 应 付 ， 更 谈 不 上 技术 的 创新 和 引 
领 业 务 的 发 展 。 

以 上 最 主要 的 原因 之 一 就 是 缺乏 从 战略 角度 出 发 的 总 体 架 构 规 划 ， 当 业务 部 门 提出 
不 同 的 业务 需求 ，IT 技术 部 门 则 以 不 同 的 技术 框架 和 软 便 件 去 满足 业务 ， 各 个 系统 相互 
分 散 ， 在 银行 内 部 形成 了 一 个 个 的 “信息 孤 鸟 ”， 使 银行 的 维护 成 本 大 幅 提 高 ， 不 能 有 效 
地 利用 数据 资源 ， 从 而 无 法 利用 这 些 宝 嘻 的 资源 去 推动 业务 向 前 发 展 。 从 业务 上 来 说 ， 
由 于 缺乏 对 全 局 的 把 握 ， 无 法 形成 统一 的 业务 视图 ， 降 低 了 业务 的 灵活 性 ， 也 就 无 法 文 
择 日 益 复 杂 的 业务 。 

基于 以 上 的 现状 分 析 ， 我们 从 管理 的 角度 来 说 ， 应 该 从 制度 上 消除 技术 部 门 和 业务 部 门 
之 间 的 “ 隅 膜 ”， 从 管理 机 制 上 把 开 技术 部 门 和 业务 部 门 的 目标 统一 起 来 ， 使 业务 部 门 除 
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了 关注 业务 和 经 营 指 标 外 ， 也 关心 具体 的 操作 流程 、 应 用 架构 、 数 据 架 构 和 技术 风险 等 内 
容 。 技 术 部 门 除了 考虑 技术 实现 外 ， 也 应 该 考虑 项 目的 效益 ,使 技术 融入 业务 ， 建 立 相 应 的 
考核 机 制 和 激励 措施 ， 如 图 1-16 所 示 。 
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图 1-16 ”消除 技术 部 门 和 业务 部 门 之 间 的 “隔膜 


在 IT 技术 部 门 中 ， 首 先 在 需求 分 析 阶 段 ， 统 筹 和 优化 整体 的 业务 需求 。 然 后 根据 业务 
需求 ， 规 划 项 目的 设计 、 开 发 和 运 维 等 活动 。 技 术 部 门 应 该 主动 了 解 需求 ， 不 仅 要 承担 技术 
的 角色 ， 也 要 考虑 业务 解决 方案 和 对 业务 流程 的 整合 。 技 术 部 门 的 真正 价值 就 是 利用 已 有 的 
IT 技术 提供 整体 的 业务 解决 方案 ， 帮 助 银 行进 行业 务 流程 优化 和 改造 。 

在 业务 部 门 中 ,， 不仅 需要 考虑 业务 流程 的 优化 、 业 务 的 集中 处 理 ， 更 应 该 将 开 战略 和 
银行 的 业务 战略 融合 到 一 起 ， 从 战略 、 管 理 变革 的 角度 降低 开 的 风险 。I 与 业务 的 融合 ， 
可 以 促使 商业 银行 适应 市 场 环境 的 变化 ， 同 时 也 相应 地 促进 了 业务 的 发 展 ， 提 高 了 商业 银行 
的 苑 争 力 。 

因此 ， 金 融 机 构 人 迫切 需要 企业 架构 的 方法 论 来 解决 由 于 信息 化 建设 带 来 的 各 种 问题 。 在 
银行 的 信息 化 建设 过 程 中 ， 企 业 架 构 越 来 越 受 到 大 中 小 银行 的 重视 ， 它 们 已 经 开始 从 整体 架 
构 上 规划 IT 系统 。 

从 战略 规划 的 角度 来 讲 ， 需 要 遵循 以 下 儿 个 原则 . 

(1) 业务 和 IT 的 高 度 融 合 

对 于 各 个 银行 来 说 ，IT 战略 规划 要 坚持 从 自身 的 业务 战略 出 发 ， 结 合 行业 的 发 展 趋势 ， 
全 面 考 虑 信息 化 建设 的 各 项 IT 和 业务 工作 ， 实 现 业 务 和 IT 的 高 度 融 合 。 

(2) 借鉴 先进 经 验 

根据 银行 的 信息 化 战略 ， 积 极 吸取 国内 外 先进 的 理念 、 整 体 框架 和 先进 技术 ， 充 分 利用 
已 有 的 资源 ， 提 升 银行 的 创新 能 力 ， 从 而 推动 业务 的 发 展 。 

(3) 分 阶段 重点 实施 

言 息 化 的 建设 不 是 一 跳 而 就 的 ， 而 是 逐步 完善 的 过 程 ， 根 据 业 务 发 展 的 重点 方 辐 ， 利 用 
现 有 的 资源 ， 分 阶段 重点 实施 系统 规划 。 

从 整体 架构 的 角度 来 说 ， 企 业 架 构 是 桥梁 ， 在 对 业务 战略 和 流程 理解 的 基础 上 ， 进 行规 
划 ， 形 成 灵活 的 、 可 扩展 的 架构 。 

对 于 银行 来 说 ， 甚 架构 设计 是 否 灵 活 、 先 进 ， 已 经 关系 到 银行 核心 业务 和 未 来 业务 的 发 
展 ， 包 括 是 否 能 够 适应 市 场 欧 争 溃 来 的 压力 。 

明确 战略 规划 ， 保 证 战略 规划 的 前 瞻 性 、 全 面 性 和 统一 性 ， 识 别 未 来 发 展 的 定位 和 战略 
目标 ， 结 合 银行 整体 的 业务 架构 ， 设 计 应 用 架构 、 数 据 架 构 和 技术 架构 ， 并 且 建 立 相 应 的 业 
务 流程 和 决策 机 制 ， 更 好 地 推动 银行 战略 目标 的 实现 ， 这 个 过 程 已 经 成 为 国内 外 银行 当前 的 
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重要 任务 之 一 ， 这 也 是 银行 通过 信息 化 转变 成 “智慧 银行 ”的 主要 过 程 。 


1.3 ”数据 架构 在 银行 信息 化 建设 中 的 重要 性 





数据 架构 在 企业 信息 化 建设 中 占有 非常 重要 的 地 位 。 目 前 来 说 ， 资 金 、 人 才 和 数据 是 公 
认 的 企业 的 资产 。 企 业 可 以 通过 使 用 数据 ， 提 供 更 好 的 产品 和 服务 ， 降 低 成 本 和 控制 风险 。 

如 何 建立 一 个 灵活 、 松 耦合 、 高 性 能 的 数据 架构 规划 体系 ， 是 很 多 企业 必须 重视 的 问 
题 ， 经 过 多 年 的 信息 化 实践 ， 很 多 企业 已 经 逐渐 认识 到 ， 系 统 应 该 具备 多 渠道 数据 采集 能 
力 、 历 史 与 趋势 分 析 能 力 。 数 据 架 构 规 划 在 信息 化 过 程 中 起 着 非常 重要 的 作用 ， 通 过 数据 架 
构 规 划 可 以 推动 企业 信息 化 的 进程 ， 使 企业 充分 利用 数据 ， 提 供 更 好 的 产品 和 服务 ， 降 低 成 
本 和 控制 风险 ， 促 进 企 业经 营 战 略 的 实现 ， 提 升 企 业 的 核心 竞争 力 。 

一 、 数 据 架 构 在 企业 总 体 规 划 中 占有 非常 重要 的 地 位 

(1) 数据 是 信息 系统 中 最 重要 的 资源 之 一 

信息 系统 就 像 是 数据 工厂 的 流水 线 ， 而 核心 是 数据 的 加 工 和 流转 。 比 较 有 价值 的 其 实 就 
是 数据 。 

(2) 数据 是 业务 和 技术 沟通 的 桥梁 

当 业 务 需求 和 技术 实现 出 现 脱节 的 时 候 ， 信 息 系 统 往往 就 会 出 现 问 题 。 为 了 加 强 彼 此 的 
沟通 ， 就 会 找到 一 门 共同 的 语言 ， 这 种 语言 就 是 数据 ， 它 承担 着 业务 和 技术 沟通 的 桥梁 
作用 。 

数据 是 业务 系统 真实 的 记录 ， 可 以 通过 分 析 数 据 的 过 程 完 成 对 业务 需求 的 技术 性 分 解 ， 
同时 数据 又 是 系统 功能 设计 的 依据 。 

(3) 数据 是 企业 价值 提升 的 “推进 器 ” 

通过 对 数据 的 全 面 分 析 ， 可 以 促进 企业 的 业务 发 展 。 

二 、 良 好 的 数据 架构 对 银行 信息 化 建设 的 重要 性 

(1) 数据 是 银行 的 核心 资产 

在 信息 化 建设 过 程 中 ， 数 据 又 是 信息 系统 的 重要 资源 ， 如 何 提高 数据 的 利用 率 是 数据 架 
构 关注 的 重点 之 一 。 另 外 ， 在 数据 架构 过 程 中 应 该 有 大 局 观念 和 全 局 意识 。 优 秀 的 数据 架构 
可 以 提高 银行 的 服务 能 力 和 满足 银行 多 样 化 的 需求 。 

(2) 支持 产品 的 多 样 化 

目前 很 多 银行 系统 都 是 从 数据 源 的 采集 环节 到 数据 终点 的 发 布 ， 整 体 呈 现 出 了 一 种 紧 耦 
合 的 关系 ， 经 常 出 现 对 系统 某 一 功能 点 的 调整 修改 ， 都 需要 对 整个 系统 的 多 个 处 理 环 节 进 行 
改造 的 情况 。 这 种 落后 的 数据 架构 ， 已 经 严重 制约 了 硬件 性 能 的 发 挥 ， 最 后 只 能 靠 打 补 丁 的 
方式 对 现 有 系统 进行 改造 。 也 就 是 在 现 有 系统 上 增加 新 的 功能 点 ， 或 者 开发 新 的 产品 ， 采 集 
新 的 数据 源 ， 每 个 系统 都 自 成 体系 ， 这 种 方式 会 造成 严重 的 重复 建设 的 问题 ， 资 源 也 会 严重 
浪费 ， 同 时 也 无 法 文 持 产 品 的 多 样 化 。 

(3) 消除 信息 孤岛 

数据 架构 可 以 帮助 银行 消除 信息 孤岛 ， 建 立 共 享 、 通 用 的 企业 数据 基础 平台 。 没 有 好 的 
数据 架构 ， 同 样 也 不 会 有 好 的 数据 质量 ， 这 样 会 降低 银行 的 社会 公信 力 和 权威 性 ， 也 就 降低 
了 社会 的 认同 感 。 
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® 数据 和 空气 有 着 类 似 的 功能 ， 不 同 的 企业 和 个 人 需要 不 同类 型 的 数据 ， 数 据 就 是 价 
值 。 大 数据 即将 开局 一 个 新 的 时 代 ， 无 论 知识 普 及 、 技 术 共 享 ， 还 是 人 才 培 养 ， 虱 需 
要 国家 从 战略 层面 上 去 文 持 。 

e 很 多 企业 已 经 充分 认识 到 数据 是 核心 资产 和 苋 争 力 ， 正 是 这 个 原因 ，IT 人 员 才 需要 了 
解数 据 染 构 方 面 的 知识 ， 并 且 能 够 利用 数据 架构 提升 数据 分 布 的 合理 性 ， 降 低 数据 存 
储 的 成 本 。 

e。 从 概念 上 来 说 ,数据 架构 是 指 与 数据 相关 的 架构 组 件 的 排放 顺序 ， 架 构 组 件 负 责 数据 

的 存储 、 交 互 、 应 用 等 功能 。 同 时 数据 染 构 是 企业 架构 的 重要 组 成 部 分 ， 对 于 企业 有 

效 地 分 配 、 部 车 和 使 用 数据 ， 实 现 数据 的 合理 组 织 、 有 效 共 时， 具有 重要 的 指导 

意义 。 

对 于 企业 染 构 来 说 ， 它 可 以 从 全 局 出 发 ， 统一 各 类 概念 和 术语 ， 梳 理 现 有 的 系统 ， 所 

取 可 重用 的 全 资产， 从 而 降低 开发 的 成 本 ， 提 高 数据 质量 。 

企业 架构 包含 业务 淋 构 和 全 架构 ， 我 们 可 以 参考 先进 的 架构 实践 ， 对 IT 染 构 进行 优 

化 ， 确 保 开 架构 能 够 很 好 地 文 持 未 来 业务 的 发 展 。 而 开 架构 又 包含 了 应 用 染 构 、 数 

据 染 构 和 拉 术 架构 。 

企业 的 总 体 染 构 就 是 从 全 局 出 发 ,解决 现存 问题 ， 同 时 满足 现实 需求 和 适应 未 来 发 展 

的 需要 ， 有 效 地 对 资源 进行 管控 ， 加 强 全 技术 实力 ,并且 指明 了 企业 的 经 营 方 同和 

发 展 目标 ， 对 企业 远景 发 展 轨 迹 进 行 全 面 的 规划 。 

企业 总 体 规 划 包 括 企业 的 战略 、 企 业 染 构 和 企业 具体 的 实施 解决 方案 。 

企业 战略 是 对 企业 发 展 目标 ， 包 括 达 成 目标 的 方法 和 途径 的 总 体 谋划 。 企 业 战 略 的 实 

质 就 是 企业 的 发 展 方向 和 定位 。 

企业 战略 的 作用 和 目标 就 是 企业 能 够 运筹 肉 怪 ， 根 据 上 月 身 的 资源 和 环境 选择 合适 的 经 

营 发 展 方向 ， 它 是 一 个 长 远 、 持 续 的 发 展 过 程 ， 具 有 一 定 的 稳定 性 。 企 业 战 略 属于 企 

业 的 安 观 管理 范 胃 ， 具 有 指导 性 、 长 远 性 、 系 统 性 、 风 险 性 、 全 局 性 和 欧 争 性 等 主要 

特征 。 

企业 的 业务 战略 是 指 企 业 拥 有 的 所 有 资产 ， 通 过 多 种 方式 进行 有 效 的 运营 ， 以 实现 利 

润 的 最 大 化 和 资本 的 增值 。 

企业 的 开战 略 是 指 在 充分 研究 企业 的 发 展 愿 景 、 业 务 稼 略 和 管理 的 基础 上 ， 形 成 信 

娠 系 统 的 二 景 、 组 成 染 构 、 人 逻辑 关系 等 ， 以 文 撑 企 业 战 略 目 标的 实现 。 

企业 架构 实质 上 束 是 对 企业 多 角度 的 一 种 摘 述 ， 它 反映 了 企业 的 业务 流程 、 技 术 的 组 

织 和 安排 ,是 对 企业 关键 性 业务 和 技术 的 整体 性 描述 。 企 业 架 构 的 日 的 是 将 跨 企业 

的 、 零 散 的 业务 流程 优化 成 一 个 集成 的 环境 ， 同 时 玫 助 企业 执行 业务 战略 及 IT 战略 

规划 。 企 业 架 构 的 过 程 实质 上 就 是 对 现实 世界 中 企业 的 业务 流程 和 开设 施 抽象 的 过 

程 。 它 反映 了 企业 的 业务 流程 和 IT 架构 之 间 的 关系。 一 般 来 说 ,企业 架构 包括 业务 

架构 和 IT 架构 。 

e 广义 的 业务 架构 包括 产品 、 销 售 、 财 务 、 人 力 资 源 、 客 户 服 务 等 企业 核心 的 业务 功能 












































和 职责 。 并 且 将 企业 战略 转化 成 企业 运营 的 目标 和 形式 ， 同 时 明确 相关 人 员 、 企 业 资 
源 、IT 资源 和 服务 是 如 何 协 调和 部 署 的 。 我 们 可 以 说 由 企业 战略 决定 了 业务 架构 的 
模式 ， 同 时 业务 架构 又 是 企业 战略 实现 的 手段 。 而 锋 义 的 业务 架构 包含 了 企业 运 虹 活 
动 中 的 业务 策略 、 组 织 、 关 键 业务 流程 、 组 织 架 构 以 及 人 员 绪 构 等 内 容 。 

IT 架构 是 对 企业 系统 的 开 规划 ， 是 建立 企业 信息 化 系统 的 综合 性 的 蓝图 ，IT 架构 可 
以 帮助 企业 获得 最 好 的 投资 回报 ， 同 时 实现 业务 和 技术 接口 之 间 的 标准 化 ， 保 证 企业 
运营 和 企业 战略 之 间 的 一 致 性 。 

应 用 架构 是 对 实现 业务 能 力 、 文 撑 业 务 发 展 的 应 用 功能 结构 化 的 描述 方法 。 系 统 的 
应 用 架构 可 以 从 功能 和 应 用 两 个 不 同 的 视角 描述 系统 各 组 件 构 成 以 及 组 件 之 间 的 关 
系 。 功 能 组 件 模 型 侧重 于 业务 功能 ， 而 应 用 组 件 模型 侧重 于 应 用 系统 设计 。 

数据 架构 是 数据 在 信息 系统 中 的 布局 与 流 问 的 框架 和 与 数据 相关 的 架构 组 件 的 摆 放 。 
数据 是 指 系 统 所 处 理 的 所 有 信息 和 数据 。 而 架构 组 件 负 责 数据 的 存储 、 交 互 和 应 用 等 
功能 。 

技术 架构 是 IT 架构 中 比较 底层 的 架构 ， 它 定义 了 如 何 建立 一 个 IT 运行 环境 来 支持 数 
据 架 构 和 应 用 架构 ， 技 术 架 构 主 要 描述 业务 、 数 据 、 应 用 服务 部 署 的 基础 设施 能 
通过 技术 架构 可 以 建立 一 个 全 平台 ,涉及 对 技术 的 采用 、 基 础 设施 的 建立 、 产 品 的 
选择 、 系 统 的 管理 等 方面 。 

我 们 从 管理 的 角度 来 说 ， 应 该 从 制度 上 消除 技术 部 门 和 业务 部 门 之 间 的 “ 隔 况 ”， 从 
管理 机 制 上 应 该 把 开 技术 部 门 和 业务 部 门 的 目标 统一 起 来 ， 使 业务 部 门 除了 关注 业 
务 和 经 营 指 标 外 ， 还 要 关心 具体 的 操作 流程 、 应 用 架构 和 技术 风险 等 内 容 。 技 术 部 门 
除了 考虑 技术 实现 外 ， 还 要 考虑 项 目的 效益 ， 使 技术 融和 人 业务， 建立 相应 的 考核 机 制 
和 激励 措施 。 

明确 战略 规划 ， 保 证 战略 规划 的 前 脆性 、 全 面 性 和 统一 性 ， 识 别 未 来 发 展 的 定位 和 
战略 目标 ， 结 合 银行 整体 的 业务 架构 ， 设 计 应 用 架构 、 数 据 架 构 和 技术 架构 ， 并 且 
建立 相应 的 业务 流程 和 决策 机 制 ， 更 好 地 推动 银行 战略 目标 的 实现 ， 这 个 过 程 已 经 
成 为 国内 外 银行 当前 的 重要 任务 之 一 ， 这 也 是 银行 通过 信息 化 转变 成 “智慧 银行 ” 
的 主要 过 程 。 

国内 商业 银行 开架 构 的 变革 主要 表现 在 以 下 几 个 方面 : 商业 银行 的 开 架构 必须 建立 
“以 客户 为 中 心 ” 的 原则 ， 以 市 场 为 导 回 的 业务 流程 。 基 于 “以 客户 为 中 心 ” 的 思 
想 ， 建 立 一 系列 产品 创新 的 快速 啊 应 机 制 。 商 业 银 行 的 IT 架构 应 该 满足 低 成 本 、 灵 
活性 和 抗 风 险 性 等 三 个 基本 要 求 。 

数据 架构 在 商业 银行 的 信息 化 建设 中 占有 非常 重要 的 地 位 。 目 前 来 说 ， 资 金 、 人 才 和 
数据 是 公认 的 企业 的 资产 。 企 业 可 以 通过 使 用 数据 ， 提 供 更 好 的 产品 和 服务 ， 降 低 成 
本 和 控制 风险 。 
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第 2 革 ” 效 据 染 构 现 状 分 析 


本 章 目 标 

通过 第 1 划 的 学 习 ， 我 们 已 经 了 解 了 什么 是 数据 染 构 、 企 业 总 体 架 构 规 划 包 含 哪些 内 
容 、 什 么 是 企业 战略 和 业务 架构 ， 以 及 应 用 架构 、 数 据 染 构 和 技术 染 构 的 定义 是 什么 。 还 了 
解 了 数据 染 构 规划 、 应 用 架构 规划 和 技术 架构 规划 的 方法 论 、 企 业 总 体 染 构 和 数据 染 构 之 间 
的 关系 等 重要 内 容 。 

从 本 曹 开始 将 正式 学 习 数 据 染 构 方 面 的 知识 。 

本 董 重点 介绍 对 数据 染 构 现状 分 析 的 工作 方法 。 现 状 分 析 主 要 发 生 在 项 目的 初始 阶段 ， 
主要 分 析 现 状 数据 架构 存在 哪些 问题 ， 如 何 对 现状 数据 进行 分 类 ， 结 合 对 战略 的 理解 ， 明 确 
下 一 阶段 的 工作 重点 。 告 握 数 据 染 构 现 状 分 析 的 相关 案例 ， 如 何 进 行 数据 分 布 、 流 转 的 现状 
分 析 ， 关 于 数据 治理 现状 分 析 的 工作 方法 ， 数 据 质 量 管理 的 现状 分 析 方 法 ,数据 生 命 周 期 管 
理 的 现状 分 析 方 法 ， 数 据 标 准 管理 的 现状 分 析 方 法 ， 元 数据 管理 的 现状 分 析 方 法 等 内 容 。 它 
是 项 目 成 功 的 关键 环 让 之 一 。 

学 习 本 章 后 ， 谈 者 将 掌握 : 

® 对 数据 染 构 现状 分 析 的 工作 方法 

e 对 于 现状 调研 和 融 层 访谈 来 说 ， 我 们 可 以 集中 于 哪些 问题 

e 对 现状 的 数据 分 类 的 原则 和 方法 

® 如 何 对 现状 数据 进行 分 类 

® 如 何 基 于 数据 分 类 进行 现状 分 析 

® 如 何 对 现 有 系统 进行 梳理 

。 擎 握 数 据 染 构 现 状 分 析 的 相关 条 例 

e 学 习 效 据 处 理 架 构 的 先进 经 验 

e 如 何 进行 数据 分 布 的 现状 分 析 

® 如 何 进 行 数据 流转 的 现状 分 析 

。 关于 数据 治理 现状 分 析 的 工作 方法 

e 天 于 数据 质量 管理 的 现状 分 析 方 法 

。 关于 效 据 生命 周期 管理 的 现状 分 析 方 法 

e 天 于 数据 标准 管理 的 现状 分 析 方 法 

e 关于 元 数据 管理 的 现状 分 析 方 法 


2.1 对 数据 架构 现状 分 析 的 工作 万 法 

















数据 架构 现状 的 分 析 主 要 通过 现状 调研 、 资 料 的 分 析 、 高 层 领导 访谈 ， 了 解数 据 架 构 的 
现状 。 

现状 分 析 ， 主 要 以 发 现 问题 、 分 析 问 题 为 主 ， 在 理解 现状 的 基础 上 上， 借鉴 行业 内 先 
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进 的 经 验 ， 从 数据 分 类 、 数 据 分 布 及 其 存储 、 数 据 处 理 染 构 和 数据 管控 等 几 个 方面 对 数 
据 染 构 现 状 进行 摘 述 ， 从 而 发 现 数据 架构 存在 哪些 问题 ， 同 时 提出 改进 的 方向 ， 如 图 2-1 
Di 


TH > 





vv 


数据 分 类 ) 
数据 分 布 及 其 存储 ) 


数据 处 理 架构 





问题 发 现 及 其 改进 


图 2-1 数据 架构 现状 分 析 的 工作 方法 





最 后 把 发 现 的 问题 和 数据 架构 改进 的 方向 作为 未 来 数据 架构 规划 的 依据 和 重要 输入 部 
分 ， 如 图 2-2 所 示 。 
数据 架构 现状 存在 的 问题 


La 
py 未 来 数据 架构 规划 





图 2-2 未 来 数据 染 构 规划 的 依据 和 重要 输入 





对 于 现状 调研 和 高 层 访谈 来 说 ， 可 以 集中 于 以 下 几 个 方面 的 问题 : 

1 ) 高 层 领导 认为 现 有 的 核心 业务 系统 有 哪些 ? 

2) 现 有 系统 能 否 文 撑 现 有 及 未 来 业务 发 展 ” 是 否 存在 需要 改进 的 地 方 ? 

3) 在 产品 和 服务 方面 有 哪些 思路 ?对 开 方 面 有 什么 新 的 期 望 ? 

4) 未 来 开 建 设 应 达到 什么 样 的 水 平 ? 未 来 几 年 业务 发 展 的 目标 是 什么 ? 

5) 在 新 产品 方面 ， 未 来 的 产品 有 哪些 特点 ? 

6) 未 来 3 ~5 年 会 拓展 哪些 数据 ? 

7) 在 数据 治理 方面 ， 哪 些 工 作 需 要 提高 ? 是 否 能 够 提高 数据 质量 ?” 质量 保证 手段 有 
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哪些 ? 

8 ) 技术 发 展 很 快 ， 如 大 数据 处 理 方式 。 对 于 新 技术 ， 领 导 层 有 什么 看 法 ? 

9) 目前 系统 和 业务 发 展 的 优势 和 劣势 是 什么 ? 

10) 日 前 全 系统 存在 哪些 问题 ? 对 开架 构 的 期 望 是 什么 ?” 目 前 全 规划 的 日 标 有 哪些 ? 

11) 数据 采集 、 加 工 、 对 外 服务 上 有 哪些 问题 ? 

12) 系统 运 维 上 存在 哪些 问题 ? 

对 数据 架构 现状 分 析 的 工作 方法 可 以 总 结 如 下 : 

首先 ， 可 以 先 从 数据 分 布 、 存 储 和 流转 等 几 个 方面 对 系统 现状 进行 描述 ， 其 中 数据 分 布 
的 现状 分 析 是 对 现 有 系统 的 梳理 ， 描 述 数 据 分 类 在 各 个 数据 库 中 的 分 布 。 

其 次 ， 对 于 数据 架构 的 现状 分 析 ， 可 以 参考 行业 内 先进 的 实践 经 验 ， 分 别 从 数据 的 采集 、 
加 载 、 数 据 加 工 等 几 个 方面 对 数据 处 理 染 构 进行 抽象 和 归纳 。 分 析 它 存在 哪些 不 足 。 

最 后 ， 从 数据 治理 和 管控 的 角度 ， 对 现状 数据 的 数据 质量 、 数 据 标准 、 元 数据 管理 、 数 
据 的 生命 周期 管理 等 儿 个 方面 存在 哪些 问题 进行 分 析 ， 发 现 现 状 存在 哪些 问题 。 


2.2 ”对 现状 的 数据 分 类 的 原则 和 方法 





2.2.1 对 数据 分 类 的 说 明 


站 完了 解 一 下 什么 是 数据 分 类 。 

数据 分 类 是 按照 选 定 的 属性 (或 特征 ) 区 分 分 类 对 月 ， 将 具有 茶 种 共同 属性 (或 特征 ) 
的 分 类 对 象 集合 在 一 起 的 过 程 。 

数据 分 类 是 在 业务 层面 上 将 数据 按照 杂种 属性 进行 归 类 和 划分 ， 它 是 按照 业务 特征 
进行 分 类 的 ， 数 据 分 类 促进 业务 沟通 ,现状 的 分 类 有 利于 分 析 ， 规 划 的 数据 分 类 有 利于 
设计 。 

数据 分 类 最 终 可 以 形成 数据 大 类 和 数据 小 类 ， 数 据 大 类 是 从 全 局 角度 理解 业务 ， 数 据 小 
类 是 从 微观 角度 对 同一 大 类 的 进一步 细 分 。 

数据 分 类 的 原则 和 方法 主要 包括 以 下 几 个 部 分 : 

(1) 分 类 应 该 按照 业务 特征 对 数据 进行 划分 。 

(2) 企业 数据 执行 同一 个 分 类 标准 。 

(3) 分 类 应 该 满足 可 维护 性 和 可 扩充 性 。 

(4) 分 类 没有 二 义 性 。 

(5) 分 类 应 该 满足 业务 需求 对 于 数据 组 织 的 要 求 。 

(6) 分 类 是 业务 和 技术 沟通 的 桥梁 。 


2.2.2 现状 数据 的 分 类 


一 、 数 据 分 类 一 一 大 类 

数据 大 类 是 从 宏观 的 角度 理解 企业 全 局 的 业务 情况 ， 我 们 可 以 在 现状 分 析 的 基础 上 ， 对 
数据 大 类 进行 主题 域 的 划分 。 主 题 域 是 从 较 高 层次 上 对 业务 的 一 种 抽象 和 归纳 。 在 主题 域 的 
划分 过 程 中 ,需要 全 面 考虑 业务 的 扩展 性 ， 当 确定 后 ， 主 题 域 很 少 发 生变 更 。 
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通过 对 系统 现状 分 析 ， 并 结合 现 有 的 业务 ， 将 数据 分 为 几 个 较 大 的 主题 域 。 我 们 结合 金 
融 行业 的 业务 活动 特点 ， 参 考 最 佳 行业 实践 和 Teradata 金融 业 逻 辑 数据 模型 ， 可 以 将 数据 大 
类 分 成 8 个 部 分 : 当事人 人、 产品 、 渠 道 、 合 约 、 财 务 、 机 构 、 事 件 、 活 动 。 

(1) 当事人 

银行 所 服务 的 任意 对 象 ， 如 个 人 、 客 户 和 员工 等 。 

(2 hm 

银行 提供 给 客户 的 产品 和 服务 信息 。 

(3) 渠 进 

渠道 是 客户 和 银行 之 间 进 行 交 互 的 方法 和 手段 。 通 过 渠道 ， 客 户 与 银行 进行 接触 ， 购 买 
相关 产品 和 服务 。 











(4) 合约 

银行 与 客户 之 间 、 银 行内 部 员工 之 间 签 订 的 协议 信息 。 人 例如， 银行 和 个 人 签订 的 贷款 合同 。 
(5) 财务 

主要 包括 银行 的 总 账 科 目 余 额 、 财 务 预算 等 信息 。 

(6) 机 构 

是 指 银行 内 部 的 机 构 ， 如 银行 所 属 的 分 行 机 构 、 文 行 等 。 

(7 种 全 

基于 合约 的 协议 信息 ， 有 主体 触发 事件 类 信息 ， 如 存 取款 、 收 费 、 投 诉 等 内 容 。 

(8) 活动 


主要 是 银行 对 客户 所 做 的 各 种 宣传 和 促销 活动 ， 目 的 是 将 产品 推销 给 客户 ， 加 强 银行 与 
客户 之 间 的 关系 。 

数据 大 类 之 间 的 关系 如 图 2-3 所 示 : 当事人 签订 合约 的 信息 ， 同 时 主动 触发 事件 ， 
事件 的 发 生 基 于 合约 的 内 容 ， 事 件 信 息 、 机 构 的 信息 和 合约 的 信息 可 以 加 工 成 产品 等 
内 容 。 








图 2-3 ”数据 大 类 之 间 的 关系 


二 、 数 据 分 类 一 一 小 类 
数据 小 类 是 在 同一 大 类 内 ， 按 照 业 务 的 特性 进行 进一步 的 细 分 。 例 如 ， 我 们 按照 数据 8 
大 类 继续 细 分 ， 举 例 见 表 2-1。 
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表 2-1 数据 分 类 














大 类 小 ”类 描述 
个 人 客户 包括 个 人 客户 的 吴 份 信息 、 职 业 信息 、 联 络 信息 等 内 容 
当事人 企业 客户 包括 企业 概况 信息 、 身 份 信息 等 内 容 
屠 员 包括 雇员 刁 份 信息 、 联 系 方式 等 内 容 
服务 类 产品 包括 查询 报告 、 个 人 信息 查询 等 内 容 





统计 类 产 包括 管理 统计 报表 等 内 容 
分 析 类 产 包括 风险 分 析 报告 、 一 些 分 析 控 气 类 产品 等 内 容 
T 


tH 
Bu 


县 可 


POS 终端 
银行 的 总 账 科目 余额 
银行 财务 预算 


祷 
涝 
族 | 二 
到 | 所 
虑 四 | 肥 | 聂 | 妈 | 聂 | 及 


之 


括 贷款 合同 的 合同 编号 、 合 同 授信 额度、 金额、 币 种 、 合 
同 生效 日 期 等 信息 


担保 合同 信息 分 为 保证 合同 、 抵 押 合 同和 质押 合同 等 信息 


贷 球 合同 信息 











个体 描述 分 行 的 基本 信息 





述 
机 构 客服 中 心 描述 客服 中 心 的 基本 信息 
支行 描述 支行 的 基本 信息 
存款 





去 人 
查询 
付款 
营销 琐 略 
营销 行为 


党 
型 


th 


活动 


又 | 又 | 又 | 又 | 又 | 汞 


2.3 数据 架构 现状 分 析 


2.3.1 数据 分 布 现 状 分 析 
通过 对 现 有 系统 的 梳理 ， 数 据 小 类 在 现 有 数据 库 的 分 布 状况 见 表 2-2。 
表 2-2 数据 小 类 




















数据 小 类 分 布 的 数据 库 数据 小 类 分 布 的 数据 库 
MC A 库 ，B 库 ，C 库 贷款 合同 信息 A 库 ，B 库 
企业 客户 A 库 ，B 库 担保 合同 信息 A 库 ，B 库 
雇员 A 库 ，C 库 分 行 A 库 ，B 库 
服务 类 产品 A 库 ，B 库 客服 中 心 A 库 ，B 库 
统计 类 产品 A 库 ，C 库 支行 A 库 ，B 库 
分 析 类 产品 A 库 ，B 库 存款 A 库 ，B 库 
ATM A 库 ，B 库 ，C 库 取款 A 库 ，B 库 

柜 面 A 库 ，B 库 查询 A 库 ，B 库 
POS 终端 A 库 ，B 库 付款 A 库 ，B 库 
银行 的 总 账 科 目 余额 A 库 ，B 库 营销 策略 A 库 ，B 库 
银行 财务 预算 A 库 ，C 库 营销 行为 A 库 ，B 库 








258 


通过 表 2-2 所 示 的 分 布 可 以 看 出 ， 主 要 的 分 类 数据 有 多 个 副本 ， 数 据 的 元 余 度 较 高 。 
2.3.2 数据 流转 现状 分 术 


通过 对 业务 流程 现状 的 分 析 ， 在 处 理 流程 环节 中 可 能 存在 以 下 问题 : 

1. 数据 处 理 各 环节 是 否 清晰 

数据 处 理 环节 包括 数据 采集 、 产 品 加 工 和 对 外 服务 。 我 们 需要 从 以 下 几 个 方面 分 析 数 据 
的 处 理 环 市 。 

1) 是 否 在 加 载 和 数据 迁移 过 程 中 进行 了 产品 加 工 ， 加 工 方 式 是 否 统一 。 

2) 加 工 生 成 的 产品 是 否 单 一 。 

3) 是 否 可 以 快速 问 用 户 提供 丰富 和 个 性 化 的 产品 。 

2. 年 否 对 数据 流转 进行 了 统一 管理 

数据 处 理 的 关键 在 于 数据 加 载 、 清 洗 、 整 合 、 加 工 、 迁 移 的 各 个 环 市 。 我 们 知 要 分 析 数 
据 加 载 、 整 合 和 数据 迁移 的 运行 方式 是 否 缺 少 统一 的 运行 监控 手段 。 

我 们 按照 分 类 对 数据 流转 现状 进行 描述 ， 如 图 2-4 所 示 。 可 以 看 出 ， 数 据 出 现 反复 抽 
取 的 过 程 ， 同 一 类 的 数据 在 多 个 数据 库 之 间 进 行 流动 和 复制 ， 导 致 数据 链条 过 长 ， 严 重 影 响 
系统 执行 的 效率 。 

这 种 现象 的 原因 是 缺乏 完整 、 良 好 的 数据 染 构 规划 ， 导 臻 “ 因 事 设 库 ” 现 象 的 增多 ， 
缺乏 数据 的 一 致 性 。 主 要 数据 重复 分 布 在 不 同 的 数据 库 中 ， 造 成 元 余 度 较 高 ， 因 为 数据 反复 
抽取 ， 严 重 影响 系统 的 效率 。 














图 2-4 数据 流转 现状 


2.3.3 ”数据 处 理 洒 构 现 状 总 结 


我 们 参考 数据 处 理 架构 的 先进 经 验 ， 对 现状 进行 抽象 和 归纳 ， 如 图 2-5 所 示 。 数 据 处 
理 架 构 可 以 分 成 数据 源 层 、 数 据 交换 层 、 数 据 基础 层 、 数 据 加 工 层 和 应 用 层 等 几 个 部 分 。 

(1) 数据 源 层 

数据 源 层 是 通过 各 种 方式 从 业务 系统 中 抽取 数据 。 

(2) 数据 交换 层 

数据 交换 层 是 对 数据 进行 校 验 ， 最 后 再 加 载 到 目标 库 中 。 

(3) 数据 基础 层 

数据 基础 层 是 保存 校 验 通过 的 数据 ， 作 为 后 续 加 工 的 唯一 可 信 数 据 源 。 
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数据 交换 层 数据 基础 层 数据 加 工 层 
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图 2-5 数据 处 理 架 构 先 进 经 验 


(4) 数据 加 工 层 

数据 加 工 层 是 保存 核心 业务 数据 、 当 前 的 数据 和 历史 数据 ， 并 且 进 行 加 工 ， 以 供应 用 层 
使 用 。 

(5) 应 用 层 

主要 进行 产品 加 工 ， 包 括 对 基础 产品 的 加 工 和 增值 产品 的 加 工 。 

参考 数据 处 理 织 构 与 系统 现状 的 映射 关系 ， 从 数据 采集 、 数 据 加 载 、 数 据 处 理 、 数 据 加 
工 和 数据 迁移 等 几 个 方面 分 析 数 据 处 理 淋 构 可 能 存在 的 问题 。 

一 、 数 据 采 集 现状 分 析 

数据 采集 现状 分 析 分 为 数据 报 送 和 上 传 的 现状 ， 包 括 采 集 的 分 类 、 数 据 的 类 型 、 文 件 的 
大 小 、 采 集 的 频率 和 传输 的 方式 等 内 容 。 

通过 对 采集 的 分 类 、 数 据 的 类 型 、 文 件 的 大 小 、 采 集 的 频率 和 传输 的 方式 的 分 析 ， 可 以 
得 知 ， 数 据 处 理 架 构 在 数据 采集 和 文件 传输 上 有 和 较 大 的 提升 空间 。 例 如 ， 增 加 自动 上 传 、 断 
点 绥 传 、 传 输 监 控 等 方式 提高 数据 的 采集 和 传输 效率 。 

表 2-3 为 某 银 行 的 数据 采集 现状 分 析 。 

表 2-3 某 银 行 的 数据 采集 现状 分 析 


采集 的 分 类 数据 的 类 型 文件 的 大 小 | 采集 的 频率 传输 的 方式 
银行 报 送 的 数据 文件 | 个 人 客户 基本 信息 按 天 ”| 通过 数据 库 工具 export/Import 导出 、 导 入 
银行 报 送 的 数据 文件 按 周 ”| 通过 数据 库 工 具 export/Import 导出 、 导 入 
银行 报 送 的 数据 文件 通过 数据 库 工具 export/Import 导出 、 导 入 
银行 报 送 的 数据 文件 通过 数据 库 工具 export/Import 导出 、 导 入 


安 大 
银行 报 送 的 数据 文件 5 MB 抽 机 通过 数据 库 工 具 export/Import 导出 、 导 入 
12 MB 按 月 通过 数据 库 工 具 export/Import 导出 、 导 入 
二 、 数 据 加 载 现 状 分 析 


银行 报 送 的 数据 文件 

对 于 数据 加 载 的 现状 分 析 包 括 数据 校 验 、 数 据 加 载 入 库 等 几 个 部 分 。 

(1) 数据 校 验 的 现状 分 析 

数据 校 验 包括 对 文件 的 格式 校 验 和 人 逻辑 校 验 ， 一 般 来 说 ， 只 有 通过 格式 校 验 后 ， 才 能 进 
入 逻辑 校 验 过 程 。 当 数据 文件 通过 数据 校 验 后 ， 再 直接 加 载 到 数据 库 中 ， 如 图 2-6 所 示 。 
30 





























加 载 入 库 


格式 校 验 逻辑 校 验 | 


图 2-6 数据 加 载 的 现状 分 析 


月 
、 龙 人 军 





(2) 数据 加 载 的 现状 分 析 
基于 数据 加 载 的 现状 ， 可 以 从 灵活 性 、 扩 展 性 和 高 效 性 上 分 析 系 统 可 能 存在 哪些 问题 。 





1) 灵活 性 。 分 析 系 统 的 现状 是 否 可 以 文 持 对 校 验 的 灵活 配置 。 
2) 扩展 性 。 分 析 系 统 现状 的 情况 ， 包 括 数据 的 逻辑 校 验 和 入 库 处 理 方式 是 什么 
具有 可 扩展 性 、 有 是 否 是 系统 性 能 的 瓶 领 。 
3) 高 效 性 。 分 析 数 据 加 载 过 程 是 串 行 处 理 方式 还 是 并 行 处 理 方式 、 对 于 数据 的 校 验 是 
是 否 具 有 吉 效 性 。 


a | es 3 





批量 校 验 还 是 一 条 条 校 验 ， 以 及 
三 、 数 据 处 理 现状 分 析 
判断 系统 是 否 进 行 了 号 份 信息 类 的 加 工 和 整合 。 例 如 ,包括 对 号 份 信息 的 识别 和 归 
并 ， 对 各 种 规则 进行 有 效 匹 配 ， 列 出 疑似 名 单 ， 然 后 通过 技术 手段 或 者 人 工 确 认 的 方式 
对 号 份 信息 进行 确认 。 如 图 2-7 所 示 ， 可 以 采取 这 种 方式 进行 客户 映 份 整合 ， 获 取 唯 一 


留 最 新 的 人 员 基 本 信息 








客户 信息 。 
分 析 是 否 按照 时 间 先后 顺序 保 


、， 还 古人 





分 析 是 按照 时 间 先 后 顺序 保留 最 新 的 信息 


所 在 银行 的 信息 





图 2-7 数据 处 理 现状 的 分 析 
同时 为 了 保证 客户 的 完整 性 、 准 确 性 和 反映 客户 当前 信息 ， 也 可 以 参考 如 图 2-8 所 示 
的 这 种 方式 ， 多 个 银行 的 同一 客户 信息 ， 经 过 唯一 码 分 配 的 过 程 ， 包 括 数据 标准 化 、 清 洗 、 
算法 匹配 和 分 配 唯 一 码 ， 青 经 过 数据 加 工 的 过 程 形 成 唯一 真实 的 客户 信息 。 其 中 完整 性 是 指 
包含 业务 所 需 的 所 有 客户 属性 ， 准 硝 性 是 指 每 个 属性 均 反 映 客户 的 真实 信息 。 
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四 、 数 据 加 工 现状 分 析 
考虑 数据 加 工人 存在 哪些 问题 : 
1) 数据 加 工 是 否 进 行 了 整体 的 规划 和 通盘 的 考虑 ， 如 将 相同 的 数据 加 工 抽 象 成 公 








据 加 工 。 
2) 判断 相同 的 数据 是 否 存 在 多 次 抽取 的 情况 ， 和 是否 存在 数据 不 一 致 的 风险 。 


唯一 码 分 配 数据 加 工 


数据 标准 化 数据 整合 
清洗 形成 唯一 客户 信息 


算法 匹配 
分 配 唯一 码 





图 2-8 数据 处 理 参 考 


五 、 数 据 迁 移 现状 分 析 

考虑 现状 数据 迁移 可 能 存在 哪些 问题 . 

1) 判断 系统 是 否 存在 同一 数据 源 反复 抽取 数据 到 多 个 目标 库 的 情况 ， 这 种 迁移 方式 会 
有 数据 不 一 致 的 风险 。 

2) 判断 系统 是 否 对 数据 迁移 进行 了 统一 管理 和 维护 ， 避 免 不 必 要 的 迁移 过 程 。 

通过 对 相关 负责 人 员 的 访谈 ， 以 及 对 数据 分 布 和 流转 现状 的 分 析 ， 我 们 归纳 总 结 了 数据 
架构 规划 的 关键 问题 ， 判 断 数据 架构 总 体 染 构 原 则 是 否 缺失 。 

我 们 从 数据 采集 、 数 据 加 载 、 数 据 处 理 、 数 据 加 工 和 数据 迁移 等 几 个 方面 对 数据 处 理 淋 
构 现 状 进行 说 明 ， 说 明 现 状 系 统 中 存在 哪些 问题 和 可 以 改进 的 地 方 。 

例如 ， 数 据 处 理 架 构 可 能 存在 以 下 几 种 问题 : 

1) 判断 数据 加 载 蜗 效 性 、 录 活性 和 可 扩展 性 是 否 存在 问题 。 

2) 是 否 具 有 统一 的 数据 加 工 规划 ， 数 据 迁移 是 否 有 统一 的 调度 。 

如 果 存 在 上 述 问题 ， 可 以 通过 增加 数据 缓冲 区 ， 避 免 多 个 目标 数据 从 同一 数据 源 重 复 抽 
取 数 据 ， 降 低 对 数据 源 的 影响 和 数据 不 一 致 性 的 风险 。 

例如 ， 通 过 使 用 数据 迁移 工具 ， 增 强 对 数据 转换 和 迁移 的 统一 管理 ， 避 免 重复 的 工作 。 
当 大 量 的 数据 从 一 个 库 迁 移 到 另 一 个 库 ， 会 影响 数据 的 一 致 性 ， 导 致 数据 元 余 度 高 ， 影 啊 效 
率 和 导致 时 间 窗 口 过 长 的 问题 ， 特 别 是 如 末 茶 个 数据 没有 明显 的 加 工 要 求 和 应 用 有 要求 ， 从 一 
个 库 不 停 地 流转 到 妃 一 个 库 ， 会 导致 迁移 的 数据 量 很 大 ， 影 啊 性 能 和 数据 的 不 一 致 性 ， 所 以 
尽量 减少 数据 的 全 量 迁 移 。 





























2.4 数据 治理 现状 分 析 


数据 治理 现状 分 析 框 架 ， 主 要 用 于 帮助 系统 对 数据 治理 现状 进行 分 析 ， 一 般 包 括 数据 治 
理 机 制 和 数据 治理 领域 两 个 部 分 。 数 据 治理 领域 可 以 包括 数据 质量 、 数 据 生命 周期 、 数 据 标 
准 和 元 数据 管理 ， 如 图 2-9 所 示 。 数 据 治理 机 制 包括 政策 、 组 织 、 流 程 和 扩 术 工具 等 4 个 方 
面 。 

下 面 完 谈 一 下 数据 治理 领域 . 

(1) 数据 质量 

对 于 数据 质量 来 说， 通过 使 用 技术 工具 解决 数据 质量 问题 ， 通 过 改善 和 提高 组 织 的 管理 
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图 2-9 数据 治理 领域 





水 平 ， 执 行 相关 的 政策 和 流程 ， 使 得 数据 质量 得 到 进一步 的 提高 。 

(2) 数据 生命 周期 

对 于 数据 生命 周期 来 说 ， 可 以 划分 为 4 个 阶段 来 描述 数据 的 生命 周期 ， 包 括 数据 创建 、 
数据 使 用 、 数 据 归档 和 数据 销毁 。 然 后 通过 使 用 技术 工具 解决 4 个 阶段 的 问题 ， 通 过 改善 和 
提高 组 织 的 管理 水 平 ， 执 行 相关 的 政策 ， 加 强 对 数据 生命 周期 的 管理 。 

(3) 数据 标准 

对 于 数据 标准 来 说 ， 它 通过 建立 数据 规范 、 政 策 体系 、 组 织 、 管 控 流 程 和 使 用 相应 的 技 
术 工 具 来 确保 系统 内 重要 核心 的 数据 是 一 臻 和 准确 的 。 数据 标准 是 企业 级 的 数据 定义 ,企业 
内 所 有 的 系统 都 应 该 脖 守 和 执行 数据 标准 。 

(4) 元 数据 管理 

对 于 元 数据 管理 来 说 ， 它 通过 建立 数据 规范 、 政 策 体系 、 组 织 、 管 控 流 程 和 使 用 相应 的 
技术 工具 来 满足 对 元 数据 的 管理 。 通 过 元 数据 管理 可 以 了 解数 据 的 变化 过 程 ， 包 括 这 些 变化 
会 给 系统 市 来 什么 影 啊 。 

我 们 从 政策 、 组 织 、 流 程 、 技 术 工 具 4 个 方面 对 数据 质量 、 数 据 生 命 周 期 、 数 据 标 准 和 
元 数据 管理 进行 分 析 ， 如 网 2-10 所 示 。 








图 2-10 分 析 的 维度 
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(1) 政策 
通过 制定 相应 的 政策 明确 相关 部 门 的 责任 ， 明 确 数据 治理 各 个 领域 的 政策 和 规范 ， 通 过 
政策 的 制定 去 规范 相关 人 员 的 行为 。 








(2) 组 织 
通过 建立 明确 的 组 织 架 构 和 人 员 角 色 ， 明 确 数 据 治理 相关 责任 人 ， 定 义 不 同 责任 人 的 
职责 。 


(3) 流程 

通过 制定 数据 治理 各 个 领域 的 工作 方法 和 步骤 ， 明 确 相 关 人 员 的 分 工 和 协作 关系 。 

(4) 技术 工具 

通过 技术 工具 保证 数据 质量 的 管理 ， 文 持 数据 标准 和 元 数据 的 发 布 和 查询 等 流程 。 对 数 
据 生 命 周 期 进行 管理 。 


2.4.1 数据 质量 管理 现状 分 析 


数据 质量 管理 现状 分 析 包 括 政策 、 组 织 、 流 程 和 拉 术 工具 现状 分 析 。 

(1) 数据 质量 管理 政策 现状 分 析 

判断 是 否 建立 了 完整 的 数据 质量 管理 政策 体系 。 

(2) 数据 质量 管理 组 织 现 状 分 析 

判断 是 否 建 立 了 完整 的 数据 质量 管理 组 织 ， 如 数据 质量 管理 的 组 织 包括 业务 部 门 和 客服 
部 门 。 业 务 部 门 的 职责 是 质量 验收 管理 、 数 据 质 量 量化 考评 、 数 据 质 量 现场 监测 、 数 据 质量 
量化 考评 、 数 据 质 量 反馈 管理 和 日 笛 数 据 质 量 管理 等 内 容 ; 客服 部 门 的 职责 是 制定 数据 质量 
处 理 规范 和 负责 客户 关于 数据 质量 问题 的 咨询 和 服务 ， 并 且 对 问题 进行 跟 踩 。 

(3) 数据 质量 管理 流程 现状 分 析 

判断 系统 是 否 建立 了 完整 的 数据 质量 管理 流程 。 例 如 ， 数 据 质量 事前 防范 、 加 工 处 理 质 
量 监控 和 入 库 后 事后 治理 。 

1) 数据 质量 事前 防 犯 。 先 对 数据 的 接口 程序 进行 测试 和 验收 ， 例 如 按照 茶 个 测试 标准 ， 
完成 测试 报告 ， 对 测试 结果 进行 验证 ， 根 据 验 证 结果 判断 验收 是 否 通过 。 对 于 未 通过 验收 的 
数据 接口 程序 ， 将 发 现 的 问题 反馈 给 相关 机 构 或 者 人 员 ， 并 指导 其 解决 问题 。 

当 修 改 完 数据 接口 程序 后 ,需要 重新 进行 验证 和 测试 ， 当 完成 测试 后 ， 重 新 申请 验收 流 
程 。 可 以 通过 搭建 测试 环境 ， 专 门 用 于 对 数据 的 测试 和 验证 工作 ， 增 强 对 数据 质量 的 事前 防 
范 工作 。 

2) 加 工 处 理 质 量 监控 。 在 数据 加 工 处 理 过 程 中 ， 对 数据 进行 预 处 理 校 验 和 入 库 校 验 ， 
保证 合格 的 数据 能 够 和 人 库 ， 不 合格 的 数据 反馈 给 相应 的 机 构 ， 然 后 根据 数据 质量 检查 规则 ， 
仿 验 入 库 的 数据 是 否 正 确 。 可 以 通过 提 噩 数据 目 动 化 的 程度 ， 优 化 数据 加 载 功能 ， 实 现 日 动 
调度 加 载 ; 优化 原 有 反馈 熔 志 ， 提 口 数据 报 送 日 动 化 程度 。 尺 量 减 少 未 知 错误 的 反馈 ， 降 低 
错误 数据 的 更 正 难度 。 

3) 入 库 后 事后 治理 。 入 库 后 事后 治理 可 以 包括 两 端 数 据 核 对 ， 对 数据 质量 进行 现场 监 
测 ， 对 有 有 异议 的 数据 进行 分 析 ， 目 的 是 不 断 提 高 数据 的 质量 ， 减 少 寞 议 情况 的 发 生 。 我 们 建 
议 构建 数据 管理 平台 完成 对 系统 数据 质量 的 统计 分 析 工 作 ， 清 楚 党 握 数 据 质量 状况 ， 从 而 提 
高 工作 效率 ， 更 好 推进 数据 质量 工作 。 例 如 增加 以 下 几 个 功能 .两 端 数据 明细 核对 功能 、 害 
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点 监测 功能 、 历 史 处 理 情 况 查 询 功能 、 数 据 统 计 与 分 析 功 能 、 数 据 提 取 与 反馈 功能 、 数 据 质 
量 档案 管理 功能 、 异 常数 据 核 实 工作 管理 功能 、 数 据 质量 统计 报表 功能 、 文 档 查 阅 功 能 、 问 
题 在 线 解答 功能 。 

(4) 数据 质量 管理 技术 工具 现状 分 析 

数据 质量 管理 技术 工具 不 作为 本 书 重点 。 

综 上 所 述 ， 我 们 可 以 参考 先进 实践 经 验 ， 判 断 系 统 的 数据 质量 管理 还 存在 哪些 问题 和 差 
忠 。 数 据 质 量 的 提升 和 检查 过 程 不 是 一 践 而 就 的 ， 而 是 一 个 不 断 提升 和 改进 的 过 程 ， 同 时 数 
据 质 量 管 理 不 仅仅 是 一 个 技术 问题 ， 它 更 是 一 个 管理 问题 ， 需 要 技术 人 员 和 业务 人 员 互 相配 
合 ， 制 定 规则 和 管理 流程 。 


2. 4.2 数据 生命 周期 管理 


完整 的 数据 生命 周期 管理 涵 冀 数据 从 产生 到 销毁 的 全 过 程 。 

(1) 数据 生命 周期 管理 政策 现状 分 析 

判断 该 系统 是 否 建立 了 完整 的 数据 生命 周期 政策 体系 ， 如 在 数据 创建 、 数 据 使 用 过 程 中 
是 否 建 立 了 相应 的 接口 规范 。 在 数据 归档 和 数据 销毁 过 程 中 是 否 有 相应 的 数据 生命 周期 管理 
方法 和 实施 细则 等 内 容 。 

(2) 数据 生命 周期 管理 组 织 现 状 分 析 

判断 系统 是 否 建 立 完整 的 数据 生命 周期 管理 流程 。 例 如 ,分 析 数 据 生命 周期 管理 流程 在 
数据 创建 、 数 据 使 用 、 数 据 归 档 和 数据 销毁 过 程 中 ， 有 哪些 组 织 架 构 和 人 员 进 行 专项 管理 。 

(3) 数据 生命 周期 管理 流程 现状 分 析 

判断 系统 是 否 建立 完整 的 数据 后 命 周期 管理 流程 。 例 如 ， 分 析 数 据 牛 命 周 期 管理 是 否 具 
有 数据 的 评 佑 、 管 理 手段 设计 和 洛 地 执行 流程 。 

数据 生命 周期 重点 关注 的 部 分 主要 包括 数据 创建 、 数 据 使 用 、 数 据 归档 、 数 据 销 毁 。 

® 数据 创建 

通过 建立 数据 标准 ， 保 证 数据 的 准确 性 。 通 过 数据 质量 管理 保证 数据 创建 的 准确 性 。 

。 数据 使 用 

在 数据 使 用 过 程 中 ， 可 以 利用 元 数据 管理 监控 数据 的 使 用 过 程 ， 利 用 数据 标准 保证 数据 
的 准确 性 。 利 用 数据 质量 管理 保证 数据 加 工 的 准确 性 。 

® 数据 归档 

通过 数据 生命 周期 评估 手段 ， 评 全 数据 什么 时 候 归 档 。 

® 效 据 铀 左 

通过 数据 生命 周期 评 售 手 段 ， 评 佑 数据 什么 时 候 销 毁 。 

数据 生命 周期 可 以 满足 审计 管理 的 需求 ， 减 少数 据 的 元 余 度 ， 提 高 数据 的 一 致 性 ， 同 时 
减少 数据 的 存储 ， 提 升 系统 的 性 能 。 


2.4.3 数据 标准 管理 


数据 标准 管理 现状 分 析 主 要 包括 数据 标准 管理 政策 现状 分 析 、 数 据 标准 管理 组 织 现状 分 
析 、 数 据 标准 省 理 流程 现状 分 析 、 数 据 标准 定理 技术 工具 现状 分 析 。 数 据 标 准 是 企业 级 的 数 
据 定 义 ， 企 业 所 有 的 系统 都 应 齐 守 和 执行 数据 标准 。 
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(1) 数据 标准 管理 政策 现状 分 析 

判断 该 系统 是 否 建立 了 完整 的 数据 标准 政策 体系 。 例 如 ， 在 数据 标准 的 建设 过 程 中 是 否 
建立 了 相应 的 管理 政策 ， 数 据 是 否 得 到 了 统一 的 定义 。 

(2) 数据 标准 管理 组 织 现状 分 析 

判断 系统 是 否 建 立 完 整 的 数据 标准 管理 流程 。 例 如 ， 分 析 数 据 标 准 管理 流程 中 有 哪些 组 
织 架 构 和 人 员 进 行 专项 管理 。 

(3) 数据 标准 管理 流程 现状 分 析 

判断 系统 是 否 建立 了 完整 的 数据 标准 管理 流程 。 

(4) 数据 标准 管理 技术 工具 现状 分 析 

数据 标准 管理 技术 工具 现状 分 析 不 是 本 书 重 点 。 


2.4.4 ”元 数据 管理 


元 数据 管理 现状 分 析 主 要 包括 : 元 数据 管理 政策 现状 分 析 、 元 数据 管理 组 织 现状 分 析 、 
元 数据 管理 流程 现状 分 析 、 元 数据 管理 技术 工具 现状 分 析 。 

(1) 元 数据 管理 政策 体系 现状 分 析 

判断 企业 是 否 建立 了 完整 的 元 数据 管理 政策 。 

(2) 元 数据 管理 组 织 现状 分 析 

判断 企业 是 否 建 立 了 完整 的 组 织 架构 。 例 如 ， 分 析 元 数据 管理 流程 中 有 哪些 组 织 架 构 和 
人 员 进 行 专项 管理 。 

(3) 元 数据 管理 流程 现状 分 析 

判断 企业 是 否 建立 了 完整 的 元 数据 管理 流程 。 

(4) 元 数据 管理 扩 术 工具 现状 分 析 

元 数据 管理 工具 现状 分 析 不 是 本 书 重 点 。 

元 数据 是 “ 质 述 数据 的 数据 ”。 一般 来 说 ， 元 数据 就 是 用 来 描述 上 下 文 的 信息 ， 帮 助人 
们 更 好 地 理解 和 使 用 数据 。 

元 数据 的 分 类 包括 : 业务 元 数据 、 技 术 元 数据 和 管理 元 数据 。 

(1) 业务 元 数据 

业务 元 数据 是 指 从 业务 角度 描述 业务 领域 相关 的 概念 、 关 系 和 规则 的 数据 ， 主 要 包括 业 
务 术 语 和 业务 规则 等 信息 。 

(2) 技术 元 数据 

技术 元 数据 旦 指摘 述 系 统 中 技术 细 世 相关 的 概念 、 关 系 和 规则 的 数据 ， 主 要 包括 对 数据 
结构 、 数 据 人 处理 方面 的 摘 述 ， 以 及 数据 仓库 、ETL、 前 端 展 现 等 技术 细 市 方面 的 信息 。 

(3) 管理 元 数据 

管理 元 数据 是 指摘 述 管理 领域 相关 的 概念 、 关 系 和 规则 的 数据 ， 主 要 包括 管理 流程 、 人 
员 组 织 和 角色 职责 等 信息 。 


























2.5 ”数据 染 构 现状 要 扣 分 析 总 结 





我 们 从 几 个 方面 分 析 数 据 染 构 是 否 存 在 问题 ， 数 据 染 构 的 合理 性 、 数 据 模型 的 合理 性 、 
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数据 的 交互 和 加 工 环节 是 否 畅通 、 数 据 的 处 理 效 率 、 是 否 满足 数据 源 采 集 的 灵活 性 、 是 否 具 
有 完善 的 数据 治理 框架 等 。 

(1) 数据 架构 的 合理 性 

主要 判断 数据 架构 的 设计 能 否 适 用 于 系统 的 使 用 ， 可 以 采集 需要 的 信息 ， 并 加 工 成 不 同 
的 产品 。 

(2) 数据 模型 的 合理 性 

判断 数据 模型 是 否 适应 功能 的 扩展 性 和 对 新 业务 的 支持 。 

(3) 数据 加 工 环节 是 否 畅通 

判断 系统 之 间 的 信息 能 否 互 相 沟通 ， 针 对 数据 加 工 和 处 理 的 要 求 ， 能 和 否 在 最 短 时 间 内 ， 
把 需要 的 数据 汇总 和 加 工 。 同 时 需要 考虑 数据 分 析 的 维度 和 粒度 问题 。 

(4) 数据 的 处 理 效率 

需要 考虑 数据 加 载 方面 ， 包 括 数据 量 的 大 小 和 数据 的 运算 能 力 。 还 需 考 虑 数据 是 否 可 以 
快速 入 库 。 在 提高 效率 和 处 理 模式 上 ， 是 否 使 用 多 个 进程 并 行 处 理 的 方式 。 

(5) 是 否 满足 数据 源 采集 的 灵活 性 

判断 系统 是 否 可 以 根据 业务 的 需求 采集 结构 化 、 半 结构 化 和 非 结构 化 的 数据 。 在 数据 采 
集 的 次 度 上 ， 是 否 可 以 扩大 采集 范围 ， 能 够 覆盖 整个 业务 ， 进 而 满足 数据 采集 的 灵活 性 。 

(6) 是 否 具有 完善 的 数据 治理 框架 

对 于 数据 标准 的 建设 ， 是 否 形 成 统一 、 有 效 的 数据 标准 ， 以 保证 参与 信息 的 稳定 性 和 完 
整 性 ， 是 否 保证 历史 数据 变更 的 可 追溯 性 。 对 于 数据 质量 的 检查 ， 要 求全 面 性 、 及 时 性 和 准 
确 性 等 内 容 。 









































小 结 





® 数据 染 构 现状 的 分 析 主 要 通过 现状 调研 、 资 料 的 分 析 、 融 层 领导 访谈 或 者 是 对 业务 部 
门 的 访谈 ， 了 解数 据 染 构 的 现状 。 现 状 分 析 ， 主 要 以 发 现 问 题 、 分 析 问 题 为 主 ， 在 理 
解 现状 的 基础 上 ,借鉴 行业 内 先进 的 经 验 ， 从 4 个 方面 对 数据 现状 进行 对 比 ， 从 而 发 
现 数 据 染 构 存 在 哪些 问题 ， 同 时 提出 改进 的 方向 。 把 发 现 的 问题 作为 未 来 染 构 规划 的 
依据 。 

e 数据 分 类 是 按照 选 定 的 属性 〈 或 特征 ) 区 分 分 类 对 象 ， 将 具有 茶 种 共同 属性 (或 特 
征 ) 的 分 类 对 和 象 集 合 在 一 起 的 过 程 。 

e 效 据 分 类 最 终 可 以 形成 数据 大 类 和 数据 小 类 ， 数 据 大 类 是 从 全 局 角度 理解 业务 ， 数 据 
小 闫 是 从 向 观 角度 对 同一 大 闫 的 进一步 细 分 。 

。 参考 最 住 行 业 实 践 和 Teradata 金融 业 逻 辑 数据 重型， 可 以 将 数据 大 类 分 成 8 个 部 分 : 
当事人 、 产 品 、 案 道 、 人 合约、 财务 、 机 构 、 事 件 、 活 动 。 

® 数据 处 理 困 构 可 以 分 成 数据 源 层 、 数 据 交 换 层 、 数 据 基 础 层 、 数 据 加 工 层 和 应 用 层 等 
el A 

® 数据 采集 现状 分 析 包 括 数据 报 送 和 上 传 的 现状 ， 包 括 采 集 的 分 类 、 数 据 的 类 型 、 文 件 
的 大 小 、 采 集 的 频率 和 传输 的 方式 等 内 容 。 

® 对 于 效 据 加 载 的 现状 分 析 ， 包 括 数据 校 验 、 数 据 加 载 人 库 等 几 个 部 分 。 























了 1/ 


368 


。 数据 治理 领域 可 以 包括 数据 质量 、 数 据 生 命 周 期 、 数 据 标准 和 元 数据 管理 。 数 据 治 理 
机 制 包括 政策 、 组 织 、 流 程 和 技术 工具 等 4 个 方面 。 

® 数据 治理 现状 分 析 框 架 ， 主 要 用 于 帮助 系统 对 数据 治理 现状 进行 分 析 ， 一般 包 括 数据 
治理 机 制 和 数据 治理 领域 两 个 部 分 。 

® 数据 质量 管理 现状 分 析 包 括 数据 质量 管理 政策 现状 分 析 、 数 据 质 量 管 理 组 织 现 状 分 
析 、 数 据 质量 管理 流程 现状 分 析 和 数据 质量 管理 技术 工具 现状 分 析 。 

。 对 于 效 据 质量 来 说 ， 通 过 使 用 扩 术 工具 解决 数据 质量 问题 ， 通 过 改善 和 提高 组 织 的 管 
理 水 平 ， 执 行 相 关 的 政策 和 流程 ， 使 得 数据 质量 得 到 进一步 的 提高 。 

数据 生命 周期 党 理 现状 分 析 主 要 包括 数据 生命 周期 管理 政策 现状 分 析 、 数 据 生 命 周 期 
管理 组 织 现状 分 析 、 数 据 生命 周期 管理 流程 现状 分 析 、 数 据 生命 周期 管理 技术 工具 现 
状 分 析 。 

对 于 数据 生命 周期 来 说 ， 可 以 划分 为 4 个 阶段 来 摘 述 数据 的 生命 周期 ， 包 括 数据 创 
建 、 数 据 使 用 、 数 据 归档 和 数据 销毁 。 然 后 通过 使 用 技术 工具 解决 4 个 阶段 的 问题 ， 
通过 改善 和 提高 组 织 的 管理 水 平 ， 执 行 相 关 的 政策 ， 加 强 对 数据 生命 周期 的 管理 。 
数据 标准 管理 现状 分 析 主 要 包括 数据 标准 管理 政策 现状 分 析 、 数 据 标 准 管理 组 织 现状 
分 机 、 数 据 标 准 管理 流程 现状 分 析 、 数 据 标 准 管理 扩 术 工具 现状 分 析 。 

对 于 数据 标准 来 说 ， 它 通过 建立 数据 规范 、 政 策 体系 、 组 织 、 管 控 流 程 和 使 用 相应 的 
技术 工具 来 确保 系统 内 重要 核心 的 数据 是 一 致 和 准确 的 。 数 据 标 准 是 企业 级 的 数据 定 
义 ， 企业 内 所 有 的 系统 都 应 该 导 守 和 执行 数据 标准 。 

元 数据 管理 现状 分 析 主 要 包括 元 数据 管理 政策 现状 分 析 、 元 数据 管理 组 织 现状 分 析 、 
元 数据 管理 流程 现状 分 析 、 元 数据 管理 扩 术 工具 现状 分 析 。 

对 于 元 数据 管理 来 说 ， 它 通过 建立 数据 规范 、 政 策 体 系 、 组 织 、 管 控 流 程 和 使 用 相应 
的 扩 术 工具 来 满足 对 元 数据 的 管理 。 通 过 元 数据 管理 可 以 了 解数 据 的 灾 化 过 程 ， 包 括 
这 些 变 化 会 给 系统 市 来 什么 影响 。 

。 元 效 据 是 “ 摘 述 数据 的 数据 ”。 一 般 来 说 ， 元 数据 就 是 用 来 描述 上 下 文 的 信息 ， 玫 助 
人 们 更 好 地 理解 和 使 用 数据 。 

元 数据 的 分 类 包 丘 业务 元 数据 、 技 术 元 数据 和 管理 元 数据 。 

我 们 从 几 个 方面 分 析 数 据 架 构 是 否 存 在 问题 ,数据 架构 的 合理 性 、 数 据 模 型 的 合理 
性 、 数 据 的 交互 和 加 工 环节 是 否 畅 通 、 数 据 的 处 理 效率 、 和 是 否 满足 数据 源 采 集 的 灵活 
性 、 是 否 具 有 完善 的 数据 治理 框 杂 、 是 否 建立 数据 标准 体系 、 是 否 有 完整 的 数据 生命 
周期 体系 和 数据 质量 管理 体系 是 否 完善 等 。 
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第 3 革 数据 淋 构 目标 规划 


本 章 目 标 

通过 前 一 章 的 学 习 ， 我 们 已 经 理解 了 数据 架构 现状 分 析 的 工作 方法 ， 以 及 数据 淋 构 现状 
分 析 的 相关 案例 。 本 革 将 重点 介绍 如 何在 现状 分 析 的 基础 上 ， 对 目标 数据 架构 的 建设 ,包括 
数据 模型 的 建设 、 目 标 数据 架构 分 布 和 流转 的 规划 等 内 容 。 

学 习 本 章 后 ， 谈 者 将 掌握: 

e 数据 架构 的 工作 方法 和 指导 原则 

e 针对 数据 染 构 现状 的 总 结 

。 提出 数据 染 构 的 改进 方 问 

® 概念 模型 的 建设 

e 数据 分 类 的 规划 

e。 逻辑 模型 的 建设 

e 物理 模型 的 建设 

e 木 来 数据 架构 的 分 布 

e 目标 数据 染 构 的 流转 

® 数据 归档 

® 对 数据 染 构 的 验证 








3.1 数据 架构 理论 体系 概述 


数据 架构 理论 体系 是 把 业务 和 技术 融合 到 一 起 的 一 套 体系 。 它 包括 技术 、 方 法 和 相应 的 
管理 过 程 。 经 过 几 十 年 的 发 展 ， 数 据 染 构 已 经 形成 了 完整 的 理论 体系 。 

什么 是 数据 架构 呢 ? 

数据 架构 是 企业 架构 的 重要 组 成 部 分 ， 实 现 数据 的 合理 组 织 和 共享 ， 保 证 数据 在 系统 之 
间 的 一 致 性 、 完 整 性 、 安 全 性 和 正确 性 。 一 般 来 说 ， 数 据 架 构 包 含 数据 模型 和 分 类 、 数 据 分 
布 和 流转 等 内 容 。 

对 于 数据 治理 来 说 ， 它 是 为 了 提升 数据 架构 各 个 层次 的 管控 和 协作 能 力 。 同 时 数据 架构 
为 数据 治理 提供 基础 能 力 支撑 ， 数 据 治理 与 数据 架构 是 相辅相成 的 。 数 据 治理 包含 数据 质量 
管理 、 数 据 生命 周期 管理 、 数 据 标准 、 元 数据 管理 等 多 个 管控 专项 。 数 据 治理 会 在 下 一 章 方 
详细 介绍 。 

(1) 数据 模型 

数据 模型 是 指 用 实体 、 属 性 及 其 关系 对 企业 运营 和 管理 过 程 中 涉及 的 业务 概念 和 人 逻辑 规 
则 进行 统一 定义 、 命 名 和 编码 。 

(2) 数据 分 类 

数据 分 类 是 根据 业务 特征 对 数据 进行 归 类 和 划分 ， 并 用 层级 列表 的 方式 展示 数据 内 容 ， 
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数据 分 类 的 规范 需要 满足 各 种 业务 需求 对 数据 组 织 的 要 求 。 

(3) 数据 分 布 

数据 分 布 主 要 包括 业务 分 布 与 系统 分 布 。 数 据 分 布 主要 分 析 数 据 在 各 个 环节 中 的 创建 、 
引用 、 更 新 和 删除 ， 并 根据 业务 对 数据 的 处 理 特点 ， 合 理 规 划 数 据 的 分 布 。 在 规划 数据 分 布 
的 时 候 ， 需 要 考虑 如 图 3-1 所 示 的 几 个 方面 。 











。 明 确 系 统 每 个 环节 之 间 的 数据 定位 和 数据 流向 





。 考 虚数 据 在 不 同 数据 库 之 间 的 快速 迁移 


。 考 虑 数据 如 何 快 速 加 工 
。 考 虑 数据 采集 的 多 样 化 


0 








图 3-1 规划 数据 分 布 需要 考虑 的 内 容 


3.1.1 数据 染 构 的 工作 方法 和 指导 原则 


在 第 2 革 中 ， 我 们 了 解 了 数据 架构 现状 分 析 的 方法 ， 那 么 如 何 与 需求 结合 起 来 ,并且 对 
目标 数据 染 构 进行 规划 呢 ? 

数据 染 构 的 工作 方法 就 是 参考 数据 染 构 的 原则 ， 在 理解 现状 问题 和 改进 方向 之 后 ， 在 需 
求 要 后 的 基础 上 结合 最 佳 实践 进行 目标 数据 架构 的 规划 ， 如 图 3-2 所 示 。 



















最 佳 实践 


数据 模型 








数据 架构 原则 


现状 问题 和 改进 
方 问 








数据 分 布 





未 来 数据 架构 规划 








数据 治理 数据 流转 


图 3-2 数据 架构 的 工作 方法 


在 数据 架构 规划 中 需要 保证 数据 的 安全 性 、 可 用 性 、 完 整 性 、 真 实 性 和 抗 抵赖 性 。 
(1) 安全 性 
安全 性 是 指 在 数据 处 理 中 保密 ， 传 输 及 存储 中 加 密 。 
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(2) 可 用 性 

可 用 性 是 指 提供 数据 备份 和 恢复 功能 。 

(3) 完整 性 

完整 性 是 指 在 处 理 、 传 输 和 存储 过 程 中 校 验 完整 性 。 

(4) 真实 性 

真实 性 是 指 在 传输 和 处 理 前 识别 数据 的 真实 性 。 

(5) 岳 抵 赖 性 

抗 抵赖 性 是 指 传输 和 处理 中 保证 不 可 否认 性 。 

因为 数据 架构 和 系统 程序 设计 上 本 喘 就 有 妥协 的 成 分 ， 例 如 为 了 某 种 优化 ， 是 放 在 整体 
架构 上 去 解决 还 是 从 程序 上 去 调整 和 完善 呢 ? 

这 并 没有 一 个 确定 的 答案 ， 这 需要 根据 不 同 的 场景 去 考虑 ， 因 此 ， 需 要 一 个 策略 和 标准 
去 指导 什么 问题 需要 在 架构 上 考虑 ， 什 么 问题 需要 在 系统 详细 设计 上 考虑 。 以 下 是 数据 架构 
的 指导 原则 。 

(1) 灵活 性 原则 

数据 染 构 要 充分 考虑 灵活 性 ,满足 不 同 的 业务 需求 ， 以 适应 业务 的 变更 。 

(2) 高 效 性 原则 

保证 数据 校 验 、 加 载 、 迁 移 、 加 工 的 高 效 性 ， 支 持 产品 的 快速 生成 。 

(3) 可 扩展 性 原则 

数据 架构 需要 考虑 未 来 的 可 扩展 性 ， 当 需求 发 生变 化 的 时 候 ， 尽 量 减少 对 数据 架构 的 变更 。 

(4) 数据 共 至 原则 

提高 数据 公共 加 工 的 功能 ， 保 证 相同 指标 加 工 的 唯一 性 ， 最 大 程度 地 共享 公共 加 工 的 结果 。 

(5) 数据 可 用 性 原则 

对 数据 的 采集 应 该 满足 业务 的 需求 。 

(6) 数据 安全 性 原则 

数据 按照 非 功 能 性 属性 制定 不 同 的 安全 级 别 ， 并 区 分 敏感 数据 和 非 敏感 数据 。 


3.1.2 针对 数据 琳 构 现状 的 总 结 


对 于 数据 架构 来 说 ， 可 以 从 几 个 方面 去 了 解 现状 存在 的 问题 是 什么 。 例 如 ， 判 断 数据 架 
构 的 原则 是 否 清晰 、 染 构 层 次 的 划分 是 否 合理 等 内 容 。 

(1) 数据 架构 的 原则 是 否 清晰 

判断 现状 中 作为 数据 染 构 设计 的 指导 原则 是 否 清晰 ， 是 否 能 成 为 数据 染 构 和 数据 治理 可 
以 锭 循 的 依据 。 

(2) 架构 层次 的 划分 是 否 合理 

从 数据 分 布 、 数 据 流 转 的 角度 判断 当前 的 数据 架构 是 否 合理 。 

例如 ， 对 于 数据 分 布 来 说 ， 是 否 有 缺失 的 层级 ， 数 据 的 分 布 是 否 混乱 ， 该 分 布 是 否 引起 
效率 的 问题 。 对 于 数据 流转 来 说， 是 否 过 于 重 三 、 复 杀 ， 是 否 有 数据 不 一 致 的 风险 。 

(3) 数据 采集 方式 

对 于 数据 采集 来 次 ， 我 们 需要 了 解 采 集 的 方式 是 什么 ， 例 如 是 采用 中 间 件 的 方式 还 是 
HTTP 的 方式 ,采集 的 对 和 象 包括 什么 ， 以 哪 类 信息 为 主 ， 数 据 采 集 的 时 间 周 期 是 什么 ， 数 据 
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的 采集 能 和 否 满足 扩展 性 、 灵 活性 和 高 效 性 等 特点 。 

同时 需要 考虑 在 安全 上 是 否 有 提升 的 空间 ， 是 否 有 有 目 动 上 传 、 断 点 续 传 和 在 数据 传输 过 
程 中 能 够 监控 等 内 容 。 

(4) 数据 的 校 验 、 加 载 方式 

数据 校 验 一 般 分 为 格式 校 验 和 逻辑 校 验 ， 我 们 需要 了 解 格式 校 验 的 方式 
验 的 规则 有 哪些 等 。 对 于 数据 加 载 来 次， 是否 可 以 处 理 批量 的 加 载 和 校 验 ， 
性 、 扩 展 性 和 高 效 性 上 有 提升 的 空间 。 

(5) 数据 、 产 品 的 整合 和 加 工 

我 们 需要 了 解数 据 整 合 、 加 工 的 粒度 是 多 少 ， 是 否 可 以 进行 吴 份 识别 、 疑 似 归 并 和 对 主 
数据 的 加 工 等 方面 。 

例如 ， 人 员 吴 份 信息 是 以 什么 方式 进行 整合 的 ， 是 否 能 满足 对 于 同一 个 人 、 不 同 证 件 信 
县 的 整合 和 加 工 。 对 于 产品 加 工 来 说 ， 我 们 需要 了 解 产品 类 型 有 哪些 ， 是 否 存 在 “ 因 事 设 
库 ” 的 情况 ， 对 于 相同 的 业务 需求 ， 是 否 存 在 重复 抽取 、 重 复 加 工 的 过 程 。 在 公共 加 工 方 
面 ， 和 是否 有 统一 的 规划 、 是 否 有 提升 的 空间 等 内 容 。 


3.1.3 需求 要 点 


对 采集 的 数据 项 进行 分 机， 判断 是 否 能 满足 对 产品 的 加 工 需 求 ， 歼 率 问 题 是 否 存在 改善 
的 空间 ， 是 否 能 够 支持 数据 的 快速 入 库 ， 不 同系 统 之 间 的 数据 是 否 可 以 共 圣 ， 是 否 可 以 规划 
数据 交换 平台 ， 提 融 数 据 加 工 的 效 座 ， 保 证 数据 淋 构 满足 灵活 性 、 蜗 效 性 和 可 扩展 性 。 


3.1.4 ”数据 架构 的 改进 方 问 


可 以 参考 数据 扫 构 的 现状 问题 ， 提 出 对 数据 架构 的 改进 方向 。 例 如 ， 背 先 应 该 明确 数据 染 
构 总 体 指导 原则 和 现存 问题 是 什么 ， 以 此 原则 指导 未 来 数据 架构 的 建设 ,同时 提出 未 来 数据 染 
构 的 改进 方 回 是 什么 。 最 后 明确 数据 架构 的 各 个 层级 ， 以 及 对 每 个 层级 进行 数据 治理 和 管控 。 
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3.2 数据 模型 


数据 模型 是 对 数据 特征 的 抽象 ， 它 一 般 分 为 概念 模型 、 逻 辑 模型 和 物理 模型 。 概 念 模型 
是 以 数据 分 类 的 形式 体现 ， 而 逻辑 模型 以 ER 图 的 形式 展示 。 
3.2.1 概念 模型 

什么 是 概念 模型 ? 

概念 模型 是 从 业务 的 角度 对 数据 进行 抽象 ， 包 括 业 务 层面 上 主题 域 的 划分 ， 以 及 各 个 主 
题 域 下 的 数据 分 类 ， 和 基于 分 类 的 非 功 能 属性 。 
3.2.2 数据 分 类 

什么 是 数据 分 类 ? 

数据 分 类 是 以 业务 特征 对 数据 进行 归 类 和 划分 ,一 般 用 层级 列表 的 方式 展现 数据 内 容 ， 
数据 分 类 是 概念 模型 的 体现 。 数 据 分 类 可 以 促进 业务 人 员 和 技术 人 员 之 间 的 沟通 ， 指 导数 据 
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的 分 布 和 流转 。 

什么 是 主题 域 ? 

主题 域 是 从 较 高 层级 上 对 业务 的 抽象 和 归纳 ， 从 概念 层面 对 系统 的 全 面 描述 ， 主 题 域 主 
要 考虑 业务 扩展 性 ， 主 题 域 划 定 后 ， 较 少 变更 。 

主题 域 下 的 数据 分 类 是 什么 ? 

分 析 数 据 的 非 功 能 特性 ， 未 来 架构 的 数据 分 类 从 较 细 维 度 进行 划分 ,保证 已 有 的 数据 分 
类 较 少 变化 。 当 有 新 业务 扩展 时 ， 可 以 增加 新 的 数据 分 类 。 

一 、 数 据 分 类 的 指导 原则 和 非 功能 属性 

1. 数据 分 类 的 指导 原则 

对 业务 数据 进行 主题 域 及 主题 域 下 的 划分 ， 需 要 遵循 如 下 几 个 原则 : 业务 驱动 性 、 完 整 
性 原则 ， 分 类 通用 性 、 互 斥 性 原则 ， 非 功能 属性 一 致 性 原则 ， 排 除 衍 生 数 据 原则 ， 分 类 关联 
性 、 可 理解 性 原则 等 内 容 ， 如 图 3-3 所 示 。 

业务 驱动 性 、 完 整 性 原则 分 类 通用 性 、 互 斥 性 原则 








排除 衍生 数据 原则 非 功能 属性 一 致 性 原则 





分 类 关联 性 、 可 理解 性 原则 


图 3-3 数据 分 类 需要 遵循 的 原则 





(1) 业务 驱动 性 、 完 整 性 原则 

言 奶 项 的 设立 从 业务 特性 出 发 ,不 考虑 技术 及 落地 实现 。 数 据 分 类 做 到 全 面 、 完 整 ， 你 
证 对 业务 的 完整 黎 兰 。 

(2) 分 类 通用 性 、 互 不 性 原则 

数据 分 类 尺 可 能 支持 业务 多 变性 ， 力 求 以 最 少 改 动 支持 业务 变更 ,数据 分 类 相互 之 间 不 
能 包含 相同 数据 内 容 。 

(3) 非 功 能 属性 一 致 性 原则 

数据 分 类 包含 的 所 有 信息 项 对 应 的 非 功 能 属性 应 该 一 致 。 

(4) 排除 衍生 数据 原则 

分 类 信息 不 包括 衍生 数据 。 

(5) 分 类 关联 性 、 可 理解 性 原则 

数据 分 类 ， 同 一 类 下 数据 项 应 有 关联 性 。 分 类 应 做 到 定义 清晰 、 无 二 义 性 。 

2. 数据 分 类 的 非 功能 性 属性 

针对 主题 域 下 的 数据 分 类 ， 需 要 从 变动 频率 、 变 动量 、 变 动 模式 、 数 据 量 大 小 、 格 式 、 
共有 性 等 各 个 维度 进行 分 析 。 数 据 分 类 的 非 功能 属性 对 于 数据 分 布 的 设计 具有 重要 的 参考 意 
义 。 如 图 3-4 所 示 ， 数 据 分 类 的 非 功 能 性 属性 主要 包括 数据 量 大 小 、 格 式 、 共 至 性 、 变 动 
频率 、 变 动量 、 变 动 模式 等 内 容 。 
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数据 量 大 小 
数据 记录 数 的 大 小 






被 采集 数据 发 生 


一 变化 的 快慢 
非 功能 性 = 
属 式 属性 ， 





数据 组 织 和 存储 描述 在 时 间 段 内 发 
格式 生变 化 的 数据 量 
数据 在 系统 内 被 数据 发 生变 化 形式 ， 
共享 的 强度 新 增 或 者 更 新 等 


图 3-4 数据 分 类 的 非 功能 性 属性 

(1 ) 数据 量 大 小 

数据 量 大 小 可 以 分 为 大 、 中 、 小 三 类 。 划 分 的 方法 根据 实际 需求 不 断 调 整 。 例 如 ，10 
亿 条 记录 以 上 的 ， 数 据 量 为 大 ; 1 亿 ~10 亿 条 之 间 的 ， 数 据 量 为 中 ; 1 亿 条 记录 以 下 的 ， 数 
据 量 为 小 。 

(2) 格式 

数据 的 格式 有 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 。 所 谓 结构 化 数据 是 以 二 维 表 
格 形式 进行 逻辑 表达 存储 的 数据 。 半 结构 化 数据 包括 一 些 文本 文件 、 文 档 。 非 结构 化 数据 包 
括 图 片 、 图 像 和 音频 /视频 信息 等 。 

(3) 共享 性 

数据 共享 性 可 以 分 为 较 高 、 一 般 、 较 低 。 例 如 ， 一些 主体 信息 在 各 个 业务 模块 共享 的 需 
求 较 高 。 对 于 一 些 特定 业务 领域 的 数据 ， 共 享 性 要 求 较 低 。 

(4) 变动 频率 

变动 频率 可 以 分 成 极 少 、 偶 尔 和 固定 周期 。 例 如 ， 我 们 可 以 把 固定 不 变 的 或 者 年 变动 率 
非常 低 的 ， 如 姓名 、 丑 份 证 信息 和 组 织 机构 号 等 信息 归 为 变动 频率 极 少 发 生变 化 的 一 类 。 

从 业务 角度 出 发 ， 数 据 存在 变动 的 可 能 ， 而 且 变 动 时 间 不 可 预知 。 例 如 ， 地 址 信息 和 电 
话 信息 等 内 容 ， 这 些 信 息 归 到 变动 频率 偶尔 发 生变 化 的 一 类 。 对 于 一 些 数据 按照 固定 周期 变 
更 ， 如 还 款 、 扣 收 等 内 容 ， 可 以 归 为 变动 频率 在 固定 周期 内 发 生变 化 的 一 类 。 

(5) 变动 量 

以 年 或 者 月 为 基础 对 数据 的 变动 量 进行 佑 值 。 

(6) 变动 模式 

变动 模式 分 成 增加 、 更 新 和 删除 模式 。 增 加 是 以 新 增 方式 产生 数据 ， 如 业务 交易 类 信 
息 。 更 新 是 数据 存在 更 新 的 可 能 ， 如 企业 规模 、 联 系 方式 等 。 

二 、 数 据 分 类 举例 

对 于 数据 分 类 ， 我 们 以 金融 逻辑 模型 为 例 进 行 说 明 : 

参考 Teradata 金融 业 逻 辑 数据 模型 ， 分 成 当事人 和 当事人 人 角色、 产品、 协议、 事件 、 地 
域 、 金 融资 产 。 

(1) 当事人 和 当事人 角色 

银行 所 服务 的 对 象 和 感 兴趣 进行 分 析 的 对 象 ， 如 个 人 或 公司 客户 、 雇 员 等 信息 。 
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(2 了 二 

产品 是 金融 机 构 向 用 户 销 售 的 或 者 提供 给 客户 的 服务 。 

(3) 协议 

金融 机 构 与 当事人 之 间 针 对 某 种 特定 产品 或 者 服务 而 签订 的 合约 关系 ， 如 客户 和 银行 签 
订 的 合同 等 内 容 。 

(4) 事件 

记录 与 银行 相关 的 活动 的 详细 情况 。 可 以 由 客户 发 起 ， 也 可 以 由 银行 发 起 。 

(5) 地 域 

观察 和 分 析 的 区 域 ， 包括 传统 的 地 址 信息 。 

(6) 金融 资产 

可 以 包括 客户 的 资产 (负债) 信息 。 

金融 数据 模型 如 图 3-5 所 示 ， 是 指 当 事 人 之 间 针 对 某 种 特定 产品 或 者 服务 而 签订 的 协 
议 关 系 ， 协 议 内 容 被 加 工 成 产品 ， 事 件 的 发 生 基于 协议 内 容 ， 协 议 自动 触发 事件 。 

















金 届 





图 3-5 金融 数据 模型 
3.2.3 逻辑 模型 


什么 是 逻辑 模型 呢 ? 

逻辑 模型 是 用 来 发 现 、 记 录 和 沟通 业务 的 详细 “蓝图 ”， 由 一 系列 表 和 实体 详细 描述 组 
成 ， 是 通用 的 业务 二 言 ， 便 于 业务 与 业务 之 间 的 功能 理解 ， 这 循 第 三 范式 。 它 包括 主题 域 的 
设计 、 基 本 实体 的 设计 和 主要 属性 的 设计 ， 是 并 人 员 和 业务 人 员 沟 通 的 工具 和 桥架 。 逮 辑 
模型 建设 的 一 般 步 又 ， 如 网 3-6 所 示 ， 首 先 分 析 需 求 ， 选 择 感 兴趣 的 数据 ， 然 后 在 实体 中 
增加 属性 ， 进 行 粒 度 层 次 的 划分 ， 最 后 进行 天 系 模式 的 定义 。 


分 析 需 求 











图 3-6 逻辑 模型 建设 的 一 般 步 又 
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3.2.4 物理 模型 


物理 模型 是 逻辑 模型 针对 具体 实现 环境 的 物理 化 ， 可 以 不 遵循 第 三 范式 ， 主 要 包括 实体 
属性 的 物理 化 ， 属 性 的 长 度 、 类 型 、 主 键 、 外 键 、 受 引 等 详细 设计 。 物 理 模型 主要 是 描述 模 
型 实体 的 细节 ， 对 列 的 属性 进行 明确 的 定义 。 物 理 模型 的 建设 过 程 是 在 逻辑 模型 的 基础 上 ， 
为 应 用 生产 环境 选取 一 个 合适 的 物理 结构 的 过 程 ， 包 括 存储 结构 和 存储 方法 。 

主要 步骤 如 下 . 

1) 实体 名 转变 为 表 名 。 

2) 属性 名 转换 为 列 名 ， 确 定 列 的 属性 。 











3.3 目标 数据 架构 规划 


3.3.1 日 标 数据 架构 的 分 析 重 点 
一 、 非 功能 性 指标 
未 来 数据 染 构 的 建设 需要 考虑 系统 的 非 功 能 性 指标 ， 见 表 3-1。 
表 3-1 非 功能 性 指标 














指 标 要 来 

数据 加 载 数据 加 载 的 效率 从 XX 条 /小 时 可 以 提高 到 多 少 

服务 查询 系统 最 多 的 并 发 用 户 数 是 多 少 ， 啊 应 时 间 是 多 少 秒 

数据 加 工 加 工时 间 窗 口 是 多 少 小 时 。 人 处 理 能 力 是 每 小 时 能 处 理 多 少 条 记录 
可 用 性 例如 ， 系 统 可 以 达到 24 小 时 不 停机 


具体 实现 上 述 指标 的 做 法 可 以 有 以 下 几 种 ， 如 图 3-7 所 示 。 


统一 进行 数据 架构 规划 ， 将 一 些 功 能 抽取 成 公共 组 件 ， 
建立 标准 和 规范 形成 可 重用 的 资产 


一 一 一 王 一 一 







将 业务 逻辑 尽 可 能 的 迁移 ， 使 用 成 熟 的 技术 提高 数据 


降低 数据 库 处 理 的 压力 人 1 加 工 和 处 理 的 能 力 
图 3-7 实现 指标 的 方法 

1) 统一 进行 数据 染 构 规划 ， 建 立 标 准 和 规范 ， 在 统一 的 平台 进行 设计 、 开 发 、 测 试 和 
部 著 。 

2) 将 一 些 功能 抽取 成 公共 组 件 ， 形 成 可 重用 的 资产 。 

3) 使 用 成 束 的 技术 提高 数据 加 工 和 处 理 的 能 力 ， 文 村 对 关键 环 节 的 并 行 处 理 能 力 ， 扩 
大 数据 处 理 和 对 外 发 布 的 可 用 时 间 。 

4) 将 业务 逻辑 尺 可 能 迁移 ， 减 小 数据 库 处 理 的 压力 ， 提 高 系统 并 发 处 理 的 能 力 和 可 扩 
展 的 能 力 。 
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二 、 数 据 架 构 现 存 问 题 影响 及 分 析 

问题 影响 及 分 析 主 要 包括 对 现状 问题 的 描述 ， 并 且 提 出 对 系统 的 改进 点 。 举 例如 下 所 示 。 

问题 1 

系统 的 并 行 处 理 能 力 差 ， 数 据 迁 移 期 间 无 法 对 外 发 布 服 务 ， 对 外 服务 窗口 时 间 缩 短 ， 资 
源 使 用 不 均衡 ， 数 据 库 服务 右 的 压力 过 大 。 同 时 便 件 资源 使 用 情况 不 均衡 ， 出 现 资源 浪费 的 
情况 。 

改进 点 

将 业务 处 理 逻 辑 拆 分 ， 减 少数 据 库 服务 天 的 压力 ， 提 高 应 用 的 并 行 处 理 能 力 ， 增 强 对 关 
键 环 市 的 并 行 处 理 能 力 ， 选 择 成 熟 的 数据 处 理 和 加 工 技术 ， 尺 量 做 到 数据 采集 、 加 工 和 对 外 
服务 的 并 行 处 理 ， 减 少数 据 处 理 环 市 间 的 技术 依赖 和 约束 。 

问题 2 

没有 统一 的 技术 开发 框 染 平台 ， 每 个 模块 都 有 自己 的 开发 框架 ,代码 的 可 重用 性 降低 ， 
维护 难度 高 。 

改进 点 

制定 统一 的 架构 原则 和 方法 ， 抽 取 公 共 组 件 。 完 善 设计 开发 规范 ， 形 成 统一 的 、 完 整 的 
技术 体系 框架 。 

问题 3 

未 形成 统一 的 数据 采集 技术 文 撑 体 系 ， 特 别 是 多 渠道 的 、 零 散 的 对 外 采集 子 系统 ， 增 加 
了 数据 采集 质量 的 管理 难度 。 

改进 点 

形成 统一 的 数据 采集 技术 文 撑 体系 ， 整 合 数据 采集 技术 ， 实 现 目 动 化 的 数据 采集 功能 ， 
增加 断 点 续 传 能 力 和 数据 传输 监控 能 力 。 

问题 4 

对 数据 校 验 、 入 库 、 加 工 处 理 和 统计 分 析 能 力 的 不 足 。 

改进 点 

可 以 引入 ETL 技术 ,满足 数据 处 理 和 加 工 的 工作 要 求 。 同 时 引入 数据 仓库 的 技术 ， 提 
高 对 海量 数据 的 统计 分 析 能 

三 、 未 来 数据 架构 的 参考 点 

对 于 未 来 数据 架构 ， 可 以 参考 以 下 思想 内 容 : 

首先 强调 数据 的 存储 与 流转 ， 文 持 层次 化 的 人 处理， 包括 对 结构 化 数据 与 非 结 构 化 数据 的 
处 理 能 力 。 例 如 ， 数 据 架 构 的 层次 可 以 包括 源 数 据 、 内 容 绾 理 、 数 据 交 换 、 数 据 存 储 区 、 数 
据 加 工区 和 应 用 。 下 面 对 这 几 个 层次 进行 说 明 。 

(1) 源 数 据 

源 数据 可 以 包括 如 来 目 互 联网 、 政 府 部 门 、 同 业 、 手 工 录 入 的 信息 。 对 于 数据 源 来 说 ， 
主要 定义 数据 采集 的 来 源 、 格 式 和 采集 方法 等 内 容 。 

(2) 内 容 管理 

内 容 管 理 提供 对 各 种 非 结 构 化 数据 的 存储 、 访 问 和 管理 的 能 力 。 例 如 ， 对 图 像 、 音 频 信 
息 和 办 公文 档 等 信息 的 处 理 能 力 。 为 半 绪 构 化 和 非 结 构 化 数据 提供 捕获 、 管 理 、 存 储 、 保 护 
和 交付 等 方面 的 功能 。 
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(3) 数据 交换 

数据 交换 包括 数据 的 抽取 、 订 阅 ， 以 及 ETL 过 程 等 内 容 。 为 系统 与 外 部 数据 交换 提供 
支持 。 

(4) 数据 存储 区 

例如 ODS、 基 础 数据 存储 、 非 结构 化 数据 存储 。 数 据 存储 是 保存 从 各 个 数据 源 采集 的 、 
贴 数据 源 的 、 近 期 的 数据 和 全 量 的 基础 数据 ， 全 量 的 基础 数据 将 作为 后 续 数据 加 工 的 唯一 可 
信 数 据 源 。 

(5) 数据 加 工区 

数据 加 工区 包括 数据 仓库 、 主 数据 和 查询 库 等 。 例 如 在 主 数据 中 进行 身份 信息 整合 
ls 

(6) 应 用 

应 用 包括 查询 类 应 用 、 分 析 类 应 用 和 管理 类 分 析 。 根 据 参 考 架构 进行 目标 架构 的 设计 ， 
未 来 数据 架构 是 在 参考 架构 的 基础 上 ， 结 合 业务 特点 进行 一 系列 的 调整 而 成 的 。 

四 、 对 未 来 架构 的 解读 

未 来 架构 的 重点 在 于 对 源 数 据 层 、 内 容 管理 、 数 据 交 换 层 、 数 据 存储 区 、 数 据 加 工区 、 
应 用 的 分 析 和 人 解读。 

1. 源 数据 层 

数据 源 层 需要 描述 采集 数据 的 类 型 ， 例 如 采集 的 数据 一 般 分 为 结构 化 数据 和 非 结构 化 数 
据 ， 其 中 非 结 构 化 数据 可 以 包括 各 种 音频 、 图 像 、 视 频 等 信息 。 我 们 从 以 下 几 个 角度 对 数据 
源 层 进行 分 析 : 数据 来 源 、 格 式 特征 、 数 据 量 和 频率 等 内 容 。 如 图 3-8 所 示 。 

站 数据 来 源 


























站 第 格 式 特征 


i 六 数据 量 





图 3-8 ”对 源 数据 层 进行 分 析 


(1) 数据 来 源 

例如 ， 从 外 部 数据 库 ， 或 以 手工 录入 、 网 络 爬 虫 等 多 种 形式 抽取 数据 。 

(2) 格式 特征 

判断 数据 的 采集 是 以 结构 化 数据 为 主 还 是 以 非 结 构 化 数据 为 主 。 

(3) 频率 

考虑 多 长 时 间 生 成 数据 。 

(4) 数据 量 

考虑 采集 的 数据 量 是 多 少 ， 是 新 增 的 数据 量 大 还 是 更 新 的 数据 量 大 。 
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对 源 数据 的 采集 ， 需 要 考虑 对 采集 数据 的 唯一 定位 。 举 例 来 说 ,个 人 信息 的 采集 需要 考 
虑 是 否 可 以 用 姓名 、 证 件 类 型 、 证 件 号 码 的 方式 对 个 人 进行 定位 ， 因 为 同一 个 人 的 不 同 证 件 
可 能 会 定义 成 不 同 的 实体 。 

2. 内 容 管理 

内 容 管理 主要 提供 对 非 结 构 化 数据 的 存储 、 访 问 和 管理 功能 。 例 如 ， 系 统 可 以 从 其 他 渠 
道 采集 非 结 构 化 数据 ， 然 后 再 通过 标注 或 者 文本 挫 气 技术， 建立 非 结构 化 数据 的 元 数据 ， 在 
此 基础 上 与 结构 化 数据 整合 ， 再 存储 到 数据 仓库 中 ， 以 供 分 析 使 用 ， 或 者 对 非 结构 化 数据 建 
立 单独 的 分 析 应 用 。 

具体 做 法 是 先 将 非 结 构 化 数据 存储 在 库 中 ， 然 后 通过 建立 标签 和 摘要 等 方式 获取 结构 化 
的 信息 ， 再 利用 数据 交换 层 加 载 到 数据 缓存 区 中 ， 最 后 加 载 到 数据 仓库 中 ， 以 供 分 析 使 用 。 

3. 数据 交换 层 

数据 交换 层 承载 着 数据 库 之 间 的 数据 交换 功能 ， 交 换 层 可 以 包括 外 部 交换 层 和 内 部 交 
换 层 。 

一 般 来 说 ， 数 据 交 换 层 包含 ETL 过 程 ， 数 据 的 抽取 、 订 阅 ， 质 量 检查 等 功能 ， 如 图 3-9 
所 示 。 


























ETL 过 程 数据 的 抽取 、 订 阅 功能 





图 3-9 ”数据 交换 层 的 功能 


(1) ETL 过 程 

ETL 过 程 包括 数 据 的 抽取 、 清 洗 、 转 换 和 加 载 。 在 清洗 过 程 中 还 包括 数据 的 预 处 理 校 
验 、 入 库 校 验 、 数 据 关 联 校 验 等 内 容 ， 经 过 去 重 、 合 并 、 拆 分 、 标 准 化 和 整合 等 过 程 ， 将 
转换 后 的 数据 加 载 到 目标 库 中 。 

(2) 数据 的 抽取 、 订 阅 功能 

数据 的 抽取 、 订 阅 是 为 了 从 数据 源 层 中 获取 原始 数据 ， 并 有 旦 实现 一 源 多 目标 的 数据 更 新 
方式 。 如 图 3-10 所 示 ， 抽 取 、 订 阅 是 可 以 实时 或 准 实 时 、 批 量 获取 源 系 统 的 增 量 或 全 量 数 
据 ， 然 后 再 根据 不 同 的 需求 和 业务 规则 将 数据 分 发 到 不 同 的 目标 库 中 。 

站 到 订阅 


定制 化 A 
目标 库 A 























四 标 订 二 
定制 化 B 国 | 


图 3-10 ”数据 的 抽取 、 订 阅 
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(3) 质量 检查 功能 

数据 质量 检查 是 数据 交换 层 的 重要 工作 ， 包 括 验证 数据 的 类 型 、 格 式 、 长 度 等 内 容 ， 确 
保 经 过 数据 质量 检查 后 ， 数 据 能 够 满足 业务 和 技术 对 于 数据 的 基本 质量 要 求 。 经 过 数据 交换 
层 的 质量 检查 后 ， 可 以 生成 一 系列 的 文件 ， 例 如 清洗 的 结果 文件 、 记 录 清 洗 结 果 的 报表 文件 
和 不 合格 文件 等 。 

清洗 结果 文件 是 经 过 数据 质量 检查 后 ， 符 合 一 致 性 、 准 确 性 和 完整 性 的 合格 的 文件 ， 可 
以 当做 后 续 加 工 处 理 的 唯一 可 信 的 输入 文件 。 

记录 清洗 结果 的 报表 文件 包含 了 数据 最 原始 的 信息 和 清洗 过 程 中 的 相关 信息 ， 例 如 数据 
不 合格 的 原因 、 对 数据 不 合格 的 标识 等 内 容 。 

不 合格 文件 是 经 过 数据 质量 检查 后 ， 不 符合 数据 一 致 性 、 准 确 性 和 完整 性 要 求 的 数据 ， 
是 没有 通过 质量 检查 的 数据 。 

数据 交换 层 关 键 设计 . 

数据 交换 层 ， 包 括 外 部 数据 交换 和 内 部 数据 交换 ， 支 持 系 统 内 部 和 系统 之 间 的 数据 在 各 
个 数据 库 之 间 的 流转 ， 如 图 3-11 所 示 。 


主 数据 P09 
“ 量 


Be 
医 … 















医 … 
管理 类 分 析 





号 


数据 仓库 ~ 


图 3-11 数据 交换 层 





e 以 增 量 的 方式 捕获 数据 

将 源 系 统 导出 为 增 量 文件 ， 供 后 续 加 工 和 并 行 加 载 ， 用 来 提升 效率 。 增 量 捕获 的 方式 包 
括 : 触发 做、 时 间 戳 、 全 表 对 比 和 系统 日 志 分 析 的 方式 等 。 

。 所 高 效 据 交 换 的 效率 

通过 细 化 作业 任务 ， 保 证 数据 在 传输 过 程 中 不 执行 加 工 操作 ， 使 传输 和 加 工 以 并 行 的 方 
30 








式 进 行 ， 同 时 分 析 任 务 之 间 的 关联 关系 ， 确 定 任务 的 调度 机 制 。 这 些 方式 都 有 效 地 提高 了 数 
据 交 换 的 效率 。 

4. 数据 存储 区 

数据 存储 区 是 对 采集 来 的 数据 进行 校 验 和 存储 ， 最 后 形成 系统 后 续 加 工 唯一 可 信 的 数据 
源 。 数 据 存储 层 包 括 ODS、 基 础 数据 存储 和 非 结 构 化 数据 存储 ， 如 图 3-12 所 示 。 

(1) ODS 

ODS 可 以 分 成 两 部 分 内 容 ， 一 个 是 临时 缓冲 区 ， 男 一 个 是 加 载 区 ， 如 图 3-13 所 示 。 





ODS 关联 校 验 
图 3-12 数据 存储 区 图 3-13 ODS 


临时 缓冲 区 是 经 过 格式 校 验 的 数据 绥 冲 区 ， 它 是 贴 数据 源 的 数据 存储 。 临 时 绥 冲 区 的 数 
据 和 加 载 区 数据 可 以 进行 关联 校 验 ， 如 果 满 足 逻 辑 校 验 的 要 求 ， 则 该 新 增 数据 下 接 插 入 到 数 
据 加 载 区 ， 并 且 蔡 换 挥 加 载 区 上 期 的 数据 。 

下 面 介 绍 一 下 ODS 具有 的 特性 ， 

首先 ， 对 于 传统 的 ODS 来 说 ， 它 是 面 癌 主题 的 、 即 时 的 ， 也 可 以 是 贴 数据 源 的 ， 反 映 
当前 数据 变化 的 内 容 。 

ODS 保存 最 近 一 期 的 数据 ， 为 了 快速 生成 查询 报告 ， 同 时 校 验 数据 和 对 基础 数据 存储 
进行 供 数 ， 提 高 对 海量 数据 的 快速 加 载 和 校 验 能 

其 次 ， 对 于 数据 的 校 验 来 说 ， 加 载 区 保存 了 上 期 的 数据 ， 根 据 逻 辑 校 验 的 需求 ， 可 以 包 
含 贴 数据 源 的 数据 ， 也 可 以 对 某 些 指标 进行 累计 汇总 。 校 验 规则 可 以 有 以 下 几 种 : 

1) 新 增 数 据 和 最 近 上 期 数据 的 关联 校 验 。 例 如 ， 对 于 本 月 还 房贷 的 累计 次 数 一 定 大 于 
上 一 期 的 累计 次 数 。 

2) 新 增 数据 和 累计 汇总 指标 的 关联 校 验 。 例 如 ， 借 款 金 额 - 贷款 余额 < 累计 还 款 
金额 。 

但 是 对 于 漏 报 补报 的 数据 ， 一 般 来 说 ， 不 具备 关联 校 验 的 条 件 。 

(2) 基础 数据 存储 

基础 数据 存储 作为 系统 唯一 可 信 的 数据 源 ， 存 储 校 验 通过 的 数据 ， 也 存储 非 结 构 化 数据 
结构 化 后 的 信息 。 基 础 数据 存储 可 以 实时 批量 地 导出 增 量 文件 ， 以 供 后 续 加 工 使 用 ， 如 
图 3-14 所 示 。 
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作为 系统 唯一 可 信 的 数据 源 


实时 批量 导出 增 量 文件 
BE al 


非 结 构 化 数据 的 结构 化 过 程 








关联 校 验 


非 结 构 化 数据 
图 3-14 ”基础 数据 存储 
(3) 非 结 构 化 数据 
韭 结 构 化 数据 是 指 存 储 经 过 人 处理 后 的 非 结 构 化 数据 。 
5. 数据 加 工区 


数据 加 工区 的 数据 来 源 于 基础 数据 存储 ， 并 将 加 工 后 的 数据 提供 给 应 用 层 。 数 据 加 工区 


包括 查询 库 、 主 数据 和 数据 仓库 ， 如 图 3-15 所 示 。 
数据 加 工区 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


查询 库 





增 量 文件 | 





医 …- 


数据 仓库 


es eT -各 和 汪 向 入 -全 1 光 汪 风 


图 3-15 数据 加 工区 


(1) 查询 库 概 述 

对 于 查询 库 的 产品 ， 可 以 批量 地 将 基础 数据 存储 导出 的 增 量 文件 加 载 到 查询 库 中 ， 然 后 
再 进行 产品 的 加 工 。 

(2) 主 数 据 概述 

主 数据 是 摘 述 核心 业务 实体 及 其 关系 的 数据 ， 但 是 不 是 交易 流水 类 的 数据 ， 主 数据 具备 
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共 至 价值 、 相 对 静态 稳定 的 特点 。 在 主 数据 中 ， 包 括 对 主体 的 识别 和 归并 ,也 就 是 利用 规则 
的 识别 、 合 并 和 禾 盖 人 处理， 实现 主体 的 唯一 性 ， 提 融 主 体 数据 的 可 信和 度 ， 并 且 使 用 唯一 主体 
标识 进行 标识 。 

例如 ， 对 于 个 人 的 基本 信息 可 以 使 用 证 件 类 型 、 证 件 号 码 和 姓名 作为 唯一 标识 。 其 他 信 
县 均 反 映 个 人 的 真实 信息 。 个 人 信息 的 识别 过 程 如 图 3-16 所 示 ， 证件 类 型 、 证 件 写 码 和 姓 
名 可 以 作为 客户 A 的 唯一 标识 。 


职业 信息 | 地 址 信息 
地 址 信息 


图 3-16 主 数 据 





主体 识别 的 详细 过 程 . 

因为 国情 的 不 同 ， 有 些 国 家 的 身份 信息 整合 方式 是 以 自然 人 为 整合 对 象 ， 主 要 利用 姓 
名 、 证 件 号 码 、 地 址 等 信息 进行 整合 ， 然 后 采用 上 自主 研发 的 数据 匹配 和 整合 技术 ， 并 且 通 过 
疑似 查询 、 模 糊 匹 配 等 先进 手段 ， 对 信息 进行 整合 。 而 国内 可 以 采用 证 件 类 型 、 证 件 号 码 和 
姓名 进行 身份 识别 ， 对 于 识别 出 来 的 职业 、 地 址 等 信息 可 以 按照 时 间 排 序 等 手段 来 取舍 。 

例如 ， 对 于 一 些 疑 似 身 份 信息 的 整合 过 程 ， 包 括 : 明确 身份 信息 整合 的 规则 定义 、 疑 似 
身份 信息 清单 的 生成 、 疑 似 身 份 信息 的 整合 及 归并 等 内 容 。 

举例 来 说 ， 身 份 信息 的 疑似 规则 可 以 包括 : 姓名 + 手机 号 、 姓 名 + 出 生日 期 等 。 疑 似 身 
份 信息 整合 可 以 将 疑似 清单 发 送 给 相关 人 员 进 行 确认 。 归 并 过 程 是 将 疑似 身份 信息 清单 进行 
合并 和 整合 ， 如 将 地 址 信息 、 联 系 信息 合并 。 

数据 整合 技术 如 图 3-17 所 示 。 








根据 不 同 维度 给 出 不 
局 的 答案 


而 大 三 条 真实 可 信 的 LS” 这 妥 基 种 优先 级 展现 
记录 ， 将 缺失 的 数据 全 部 数据 





图 3-17 数据 整合 技术 
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1) 对 于 多 条 信息 的 识别 ， 首 先 根据 规则 确认 一 条 真实 可 信 的 记录 ， 然 后 将 缺失 的 数据 
锌 全 。 

2) 保存 所 有 的 信息 ， 根 据 不 同 维度 给 出 不 同 的 答案 。 

3) 保存 所 有 的 信息 ， 按 照 某 种 优先 级 展现 全 部 数据 。 

(3) 数据 仓库 概述 

数据 仓库 主要 存储 全 局 的 信息 。 我 们 可 以 把 数据 仓库 分 成 


基础 数据 、 汇 总 加 工 和 库 内 集 市 ， 如 图 3-18 所 示 。 其 中 基础 要 
数据 和 汇总 加 工 主要 为 库 内 集 市 提供 数据 。 对 于 简单 加 工 和 以 |‖ 数据 加 工 


查询 为 主 的 数据 服务 ， 尽 量 不 使 用 数据 仓库 。 对 于 需要 大 量 历 
史 数 据 和 复杂 计算 的 ， 可 以 使 用 数据 仓库 。 

因为 数据 仓库 通常 包含 历史 数据 ， 记 录 了 各 个 阶段 的 历史 图 3-18 数据 仓库 
信息 ， 所 以 对 查询 的 时 效 性 要 求 不 高 。 一 般 来 说 ， 数 据 仓库 是 不 进行 删除 的 。 

(1) 基础 数据 

基础 数据 存储 了 数据 仓库 最 具 细节 性 的 数据 ， 它 可 以 来 源 于 基础 数据 存储 、 主 数据 中 的 
身份 信息 整合 和 查询 类 相关 产品 的 信息 等 内 容 。 一 般 来 说 ， 基 础 数据 按照 数据 仓库 模型 进行 
组 织 ， 同 时 作为 汇总 加 工 层 的 数据 源 。 

数据 仓库 中 的 基础 数据 和 基础 数据 存储 是 有 区 别 的 。 

1) 首先 ， 它 们 的 目的 不 同 ， 基 础 数据 存储 作为 系统 唯一 可 信 的 数据 源 ， 而 数据 仓库 中 
的 基础 数据 是 为 数据 仓库 后 续 加 工 考虑 的 。 

2) 然后 ， 基 础 数据 存储 是 贴 数据 源 的 ， 支 持 对 各 种 产品 的 加 工 ， 时 效 性 较 高 ， 并 且 对 
数据 仓库 供 数 。 而 数据 仓库 中 的 基础 数据 一 般 来 说 是 按照 第 三 范式 进行 存储 的 ， 它 强调 对 各 
种 数据 的 集成 ， 时 效 性 较 低 。 

3) 最 后 ， 数 据 仓库 中 的 基础 数据 除了 存储 基础 数据 存储 的 数据 外 ， 还 存储 主 数据 的 身 
份 整合 信息 和 产品 信息 等 内 容 ， 目 的 是 支持 高 级 的 决策 分 析 。 

(2) 汇总 加 工 

汇总 加 工 是 对 基础 数据 的 明细 数据 进行 轻 度 汇总 ， 通 过 对 常用 数据 的 汇总 ， 可 以 降低 后 
续 ETL 的 复杂 性 。 

(3) 库 内 集 市 

库 内 集 市 可 以 分 成 分 析 类 集 市 和 管理 类 集 市 。 它 们 都 是 根据 业务 需求 形成 的 数据 集合 。 

分 析 类 集 市 是 通过 数据 挖掘 、 文 本 分 析 、 预 测 分 析 等 手段 ， 帮 助 企业 挖掘 有 用 的 信息 ， 
以 提高 企业 决策 分 析 的 能 

管理 类 集 市 是 指 为 了 企业 管理 的 需求 而 进行 的 数据 分 析 ， 可 以 包括 管理 驾驶 舱 、 国 定 的 
报表 、OLAP 多 维 分 析 等 内 容 。 

对 于 数据 仓库 质量 的 管理 ， 可 以 包含 以 下 几 种 方式 ; 

1) 采用 抽样 统计 分 析 的 方法 监测 数据 仓库 的 质量 。 

通过 抽样 的 统计 分 析 方 法 来 提高 数据 的 加 载 效率 和 快速 发 现 数据 的 错误 。 首 先 判定 
该 批 次 数据 的 质量 等 级 ， 然 后 根据 不 同 的 质量 等 级 ， 采 用 不 同 级 别 的 校 验 规则 。 对 于 质 
量 等 级 非常 好 的 一 批 数据 ， 可 以 采用 较为 宽松 的 校 验 规则 对 每 条 记录 逐条 检查 。 反 之 ， 
则 采用 较为 严格 的 校 验 规则 逐条 检查 。 这 种 方式 可 以 大 大 提高 数据 的 加 载 人 库 效 率 和 数 
人 9 了 4 


数据 仓库 














































































































据 质量 检查 效率 。 








换 名 话说， 保证 数据 的 质量 检查 尽量 在 人 库 前 完成 。 如 打发 现 人 库 后 的 数据 质量 有 问 


题 ， 那 么 可 以 采用 异议 处 理 或 者 其 他 方式 进行 改进 。 如 果 在 人 库 前 发 现 系 统 级 别 的 错误 ， 则 
将 错误 结果 反馈 给 源 系 统 ， 如 图 3-19 所 示 。 





采用 抽样 统计 分 析 的 方法 






判断 该 批 次 数据 质量 的 等 级 


批量 的 数据 当 发 现 系统 级 别 的 错误 时 ， 
守 采用 不 同 级 别 的 校 验 规则 将 结果 反馈 给 源 系统 。 
反之 ， 则 入 库 


数据 仓库 






对 于 入 库 后 的 数据 质量 问题 ， 
方式 





图 3-19 抽样 统计 分 析 的 方法 


2) 对 于 数据 仓库 质量 ， 可 以 采用 格式 校 验 、 逻 辑 校 验 的 方式 和 两 六 数据 对 比 的 方式 进 
行 验证 。 如 条 发 现 两 闪 数 据 不 一 致 ， 则 将 结 来 反 锯 给 源 系统 进行 核查 ， 如 图 3-20 所 示 。 





抽取 部 分 源 数 据 做 两 端 数据 核对 


源 数 据 





下 两 端 数 据 核对 
如 琳 发 现 两 端 数 据 不 一 致 ， 则 将 结 霖 


反馈 给 源 系 统 进行 核查 


数据 仓库 
格式 校 验 
逻辑 校 验 
浅 谨 








图 3-20 数据 仓库 质量 验证 
3) 在 数据 仓库 部 署 业 务 检 查 规 则 和 技术 检查 规则 ， 周 期 性 地 对 数据 仓库 质量 进 # 





查 ， 并 且 将 检查 结 








、 行 检 
提交 给 质量 管理 平台 ， 由 质量 管理 平台 对 提交 的 检查 结 末 进行 识别 和 分 
析 ， 最 后 再 提交 给 源 系统 去 治理 和 改进 ， 如 图 3-21 所 不。 





需要 理解 的 是 ， 数 据 仓 库 不 仅仅 是 技术 ， 它 更 是 一 个 管理 诛 题 。 从 内 部 管理 上 来 说 ， 丘 
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源 系 统 不 断 
改进 数据 质量 










EE 习 对 提交 的 检查 结果 进 
站 行 识别 和 分 析 








对 数据 仓库 质量 
进行 检查 





将 检查 结 末 提 交 给 


质量 管理 平台 


图 3-21 数据 仓库 部 署 检 查 规则 


数据 仓库 





可 以 真实 地 反映 企业 的 经 营 状 况 和 未 来 的 发 展 趋势 ， 为 领导 决策 和 经 营 管 理 提 供 准 确 和 全 面 
的 分 析 。 同 时 可 以 利用 数据 挖 据 ， 更 好 地 为 客户 服务 。 有 关 数 据 仓库 的 介绍 ， 将 在 第 9 草 详 
细 介 绍 。 

6. 应 用 

应 用 可 以 包含 各 种 查询 类 应 用 、 分 析 类 应 用 和 管理 类 应 用 。 它 们 的 数据 源 来 目 于 数据 加 
工区 的 数据 ， 同 时 可 以 将 数据 查询 记录 返回 给 数据 仓库 作为 分 析 数 据 使 用 。 


3.3.2 日 标 数 据 染 构 的 分 布 和 流转 


下 面 将 从 数据 分 类 的 角度 ， 分 析 数 据 在 未 来 数据 架构 各 个 逻辑 库 上 的 分 布 及 流转 。 
对 于 逻辑 库 的 设计 原则 ， 可 以 包含 以 下 几 个 方面 ， 如 图 3-22 所 示 。 


















1. 数据 的 共享 性 ”| 。 2. 数据 的 管理 性 ”| 。 3. 数 据 的 高 性 能 “| 。 4 数据 的 可 用 性 





图 3-22 ”逻辑 库 的 设计 原则 


(1) 数据 的 共 至 性 

减少 数据 复制 并 降低 数据 的 元 余 度 ， 提 高 数据 的 共享 性 。 
(2) 数据 的 管理 性 

考虑 系统 对 于 数据 管理 方面 的 要 求 ， 特 别 是 数据 质量 的 管理 。 
(3) 数据 的 高 性 能 

基于 性 能 的 考虑 ， 可 以 将 加 工 和 查询 分 开 。 

(4) 数据 的 可 用 性 

确保 系统 对 外 服务 的 时 间 窗 口 尽 可 能 延长 ,减少 停机 的 时 间 。 
对 于 数据 架构 的 分 布 和 流转 ， 需 要 和 完了 解 逻 辑 库 包含 哪些 内 容 ， 如 图 3-23 所 示 。 
e ODS 

主要 存储 贴 数据 源 的 最 近 一 期 的 数据 。 
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-mm 
基础 数据 
存储 





AN 
Dos | 


四 





图 3-23 逻辑 库 相 关内 容 


。 基础 数据 存储 

主要 存储 校 验 过 的 明细 的 基础 数据 ， 存 储 的 期 限 根据 业务 需求 制定 。 

。 非 结构 化 数据 

主要 存储 互联 网 或 者 其 他 渠道 获得 的 经 过 处 理 的 非 结 构 化 数据 。 

。 查询 库 

主要 进行 数据 加 工 或 者 产品 加 工 ， 保 存 过 程 数 据 。 

® 数据 仓库 

主要 保存 基础 的 历史 数据 ， 或 者 主 数据 、 产 品 的 信息 ， 供 后 续 加 工 和 使 用 。 
。 主 数 据 

主要 存储 核心 业务 实体 和 实体 之 间 关 系 的 数据 ， 如 唯一 身份 识别 信息 。 

。 应 用 

存储 复制 的 数据 并 提供 对 外 服务 。 

一 、 数 据 架 构 的 分 布 

数据 分 布 主要 分 析 业 务 数据 在 多 个 系统 之 间 和 多 个 环节 之 间 的 分 布 情况 。 下 面 主 要 分 析 





业务 数据 在 各 个 逻辑 库 之 间 的 分 布 状况， 举例 见 表 3-2。 


表 3-2 业务 数据 在 各 个 逻辑 库 之 间 的 分 布 状况 
逻 辑 库 业务 数据 























ODS 个 人 基本 信息 、 企 业 信息 、 交 易 信 息 、 财 务 信息 等 基础 信息 
基础 数据 存储 个 人 基本 信息 、 企 业 信息 、 交 易 信 息 、 财 务 信息 等 基础 信息 
非 结 构 化 数据 互联 网 信息 
查询 库 查询 服务 类 的 信息 
数据 仓库 ee 
类 信息 等 内 容 
主 数 据 个 人 身份 信息 、 企 业 吴 份 信息 等 内 容 
应 用 查询 服务 类 的 信息 


二 、 数 据 架 构 的 流转 规划 
数据 流转 是 描述 业务 分 类 在 各 个 逻辑 库 之 间 的 流转 情况 ， 如 网 3-24 所 示 。 
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主 数据 





E 





数据 仓库 
图 3-24 数据 流转 


首先 ， 企 业 信 息 和 个 人 基本 信息 在 ODS 中 临时 存储 并 且 进 行 校 验 ， 当 校 验 通过 后 存放 
到 基础 数据 存储 中 ， 然 后 ， 将 这 些 信息 加 载 到 主 数 据 中 进行 企业 里 份 信息 整合 和 个 人 号 份 信 
县 整合 ， 最 后 ， 将 个 人 基本 信息 和 企业 信息 加 载 到 数据 仓库 中 。 

合理 的 数据 分 布 和 流转 可 以 提高 数据 的 一 致 性 ， 减 少数 据 元 余 ， 从 而 提高 效 据 的 灵活 性 
和 本 扩 展 性 。 

首先 ， 核 心 的 数据 尽量 不 要 反复 地 分 布 在 不 同 的 数据 库 中 ， 这 样 可 以 降低 数据 不 一 致 性 
的 风险 ， 但 是 有 时 候 基于 系统 性 能 的 考虑 ， 有 些 合理 的 元 余 是 可 以 存在 的 。 

其 次 ， 在 数据 分 布 中 需要 建设 一 个 唯一 可 信 的 数据 源 ， 这 样 保证 在 后 续 的 加 工 过 程 中 有 
依据 可 碍 ， 同 时 提高 了 数据 的 一 致 性 。 

再 次 ， 尽 量 缩短 数据 加 工 链条 。 例 如 ， 身 份 信息 在 主 数据 中 加 工 ， 然 后 对 应 用 和 数据 仓 
库 供 数 ， 基 础 数据 存储 为 数据 仓库 、 主 数据 和 查询 库 提 供 增 量 数据 ， 这 几 条 链 路 单独 加 工 ， 
并 行 处 理 ， 提 高 了 效率 。 


























三 、 数 据 归档 1 在 线 奉 祷 
数据 归档 是 指定 期 将 基础 数据 存储 、 
应 用 的 数据 进行 归档 保存 ， 它 的 目的 是 为 ee 
了 保存 原始 数据 。 原 则 上 数据 归档 对 中 间 4 
数据 或 者 临时 数据 不 进行 归档 操作 。 AAA 
数据 归档 可 以 帮助 数据 再 次 核对 和 备 © 离线 存储 
查 。 数 据 归 档 包 括 在 线 存储 、 近 线 存储 和 ep 


离线 存储 ， 如 图 3-25 所 示 。 

(1 ) 在 线 存储 

在 线 存储 主要 保存 近期 业务 数据 ， 对 在 线 存 储 的 访问 频率 相对 较 高 。 可 以 使 用 高 速 磁 盘 
对 数据 进行 保存 。 

(2) 近 线 存储 

近 线 存储 主要 保存 访问 频率 相对 较 低 的 数据 ， 一 般 使 用 低速 磁盘 进行 存储 。 











bfe) 


(3) 离线 存储 
离线 存储 主要 保存 数据 访问 频率 低 ， 很 少 存在 加 工 需 求 的 数据 ， 可 以 使 用 光盘 ， 磁 带 等 
价格 低廉 的 介质 保存 。 


3.3.3 ”对 数据 架构 的 验证 和 总 结 


一 、 总 体 数 据 流转 方案 验证 
首先 ， 数 据 通 过 数据 交换 层 进 入 到 ODS 中 的 缓冲 区 ， 缓冲 区 是 贴 数据 源 的 。 缓 冲 区 的 
数据 与 加 载 区 的 数据 进行 关联 逻辑 校 验 ， 校 验 通 过 后 再 蔡 换 挥 加 和 载 区 的 数据 。 
然后 基于 实时 批量 的 方式 ， 将 校 验 通 过 的 加 载 区 的 数据 统一 存储 在 基础 数据 存储 中 。 
最 后 基于 实时 批量 的 方式 将 基础 数据 存储 的 数据 导出 成 增 量 文件 ， 为 后 续 加 工 供 数 。 
数据 流转 方案 验证 如 图 3-26 所 示 。 











基于 实时 批量 方式 将 
基础 数据 存储 的 数据 
导出 成 增 量 文件 





基于 实时 批量 的 方式 ， 将 校 验 
通过 的 加 载 区 的 数据 统一 存储 
在 基础 数据 存储 中 










源 数据 通过 数据 交换 层 进入 到 
ODS 中 的 缓冲 区 ， 缓 冲 区 
征 贴 数据 源 的 


E 
| 主 数 据 | 


数据 仓库 


增 量 文件 


数据 源 ; I 
本 基础 数据 存储 











i 非 结构 化 数据 
进行 关联 逻辑 校 验 ， 校 验 通 
过 过 后 其 换 掉 加 载 区 的 煞 据 


图 3-26 数据 流转 方案 验证 


二 、 产 品 加 工 方案 场景 验证 

简单 查询 类 产品 在 查询 库 中 加 工 ， 然 后 按 日 统一 将 加 工 后 的 数据 复制 到 应 用 中 ， 统 一 对 
外 提供 查询 服务 。 

对 于 挖掘 分 析 类 的 需求 ， 应 该 在 数据 仓库 中 加 工 ， 有 时 为 了 性 能 考虑 ， 可 以 将 数据 仓库 
中 的 数据 迁移 到 库 外 集 市 加 工 。 

如 图 3-27 所 示 ， 一 些 基础 查询 类 的 产品 在 查询 库 中 加 工 获取 ， 一 些 身 份 加 工整 合 的 数 
据 从 主 数据 中 获取 ， 然 后 通过 查询 类 应 用 统一 对 外 提供 服务 。 
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源 数据 












基础 数据 存储 
二 主 数据 





数据 仓库 





图 3-27 产品 加 工 方案 场景 验证 

三 、 数 据 删 除 场景 验证 

首先 ， 对 应 的 删除 数据 通过 数据 交换 层 进 入 到 ODS 的 缓冲 区 ， 如 果 要 删除 的 数据 仅 仅 
包含 历史 数据 ， 加 载 区 的 数据 不 需要 删除 。 如 果 删 除 的 数据 包含 最 近 上 一 期 的 数据 ， 则 需要 
删除 加 载 区 的 数据 。 

然后 ， 删 除 基 础 数据 存储 中 对 应 的 数据 ， 同 时 为 了 逻辑 校 验 ， 加 载 区 中 最 近 一 期 的 数据 
被 删 挥 后 ， 需 要 把 基础 数据 存储 中 最 近 一 期 的 数据 回 写 到 加 载 区 。 

最 后 ， 把 查询 库 和 数据 仓库 中 对 应 的 数据 删除 。 当 数据 删除 后 再 重新 加 工 ， 如 图 3-28 
所 示 。 


删除 基础 数据 存储 中 对 应 的 数据 ， 
同时 为 了 逻辑 校 验 ， 加 载 区 中 最 近 一 期 的 
数据 被 删除 后 ， 需 要 把 基础 数据 存储 
删除 数据 通过 数据 交换 层 中 最 近 一 期 的 归 据 写 回 到 加 载 区 
进入 到 ODS 中 的 缓冲 区 












基础 数据 存储 


删除 数据 


和 


数据 仓库 


非 结构 化 数据 








人 

加 载 区 的 数据 不 需要 删除 。 如 果 删 除 的 

数据 包含 最 近 上 一 期 的 数据 ， 则 需要 
删除 加 载 区 的 数据 


图 3-28 数据 删除 场景 验证 
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基于 调度 机 制 确保 数据 一 致 性 : 
1) 到 达 当 天 截至 的 时 间 点 ,例如 凌晨 12 点， 加载 完 当天 上 传 的 所 有 源 数 据 ， 如 
图 3-29 所 示 。 
as 前 的 
数据 源 | PS 
I 数据 加 载 
1 
1 








图 3-29 加载 当天 数据 


2) 当 最 后 一 个 加 载 任 务 完成 之 后 ， 再 增加 最 后 一 个 传输 任务 ， 因 为 传输 的 是 最 后 一 个 
新 增 数 据 ， 所 以 花费 的 时 间 不 会 太 多 ， 如 图 3-30 所 示 。 


当 最 后 一 个 加 载 任 务 完成 之 后 ， 再 增加 
最 后 一 个 传输 任务 。 


ODS 


图 3-30 增加 传输 任务 


3) 查询 库 数 据 、 主 数据 、 效 据 仓库 的 数据 由 于 加 工 节奏 不 一 样 ， 因 此 数据 可 能 存在 不 
一 致 的 情况 。 在 数据 加 工 过 程 中 ， 因 为 加 工 流 水 线 的 顺序 执行 原因 ， 在 某 一 个 时 刻 点 ， 不 同 
库 之 间 数 据 可 能 人 不一致， 需要 分 析 业务 是 否 能 够 接收 数据 的 不 一 致 性 ， 如 图 3_31 所 示 ， 

查询 库 妆 据 、 二 数据 ， 数据 食 库 的 数据 由 于 加 工 节 春 不 一样 数 所 
可 能 存在 不 一 致 的 情况 。 在 数 所 加 工 过 程 中 ， 由 于 加 工 流 水 线 的 顺 


序 执行 关系 在 菜 一 个 时 血 点 ， 不 同 库 之 间 数 据 可 能 不 一 致 ， 需 要 
分 析 业 务 是 各 能 名 接受 妆 据 多 外 二 狼 性 查询 库 


基础 数据 存储 




















基础 数据 存储 
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图 3-31 基于 调度 机 制 确 保 数 据 一 致 性 
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数据 如 构 在 效率 、 灵 活性 以 及 扩展 性 方面 可 以 满足 业务 的 需求 ， 因 为 加 载 区 仅仅 存储 最 
近 上 一 期 的 历史 数据 ， 目 的 是 为 了 支持 快速 加 载 和 校 验 。 

加 载 区 通过 寻 出 文件 的 方式 ， 同 时 对 碍 询 库 、 主 数据 和 数据 仓库 供 数 。 基 础 查询 类 产品 
在 查询 库 中 单独 加 工 ， 分 析 类 产品 和 对 实时 性 有 要求 不 高 的 产品 在 数据 仓库 中 加 工 。 

对 于 基础 数据 存储 来 说 ， 它 是 唯一 可 信 的 数据 源 ， 对 于 碍 询 类 产品 的 加 工 ， 它 直接 从 基 
础 数据 存储 中 增 量 获取 。 对 于 数据 仓库 来 说 ， 它 按 主 题 存储 基础 数据 ， 用 于 实时 性 要 求 不 高 
的 统计 分 析 或 者 挖掘 分 析 。 
































小 结 


数据 架构 理论 体系 是 把 业务 和 技术 融合 到 一 起 的 一 套 体 系 。 它 包括 技术 、 方 法 和 相应 
的 管理 过 程 。 经 过 儿 十 年 的 发 展 ， 数 据 架构 已 经 形成 了 完整 的 理论 体系 。 

数据 架构 是 企业 架构 的 重要 组 成 部 分 ， 实 现 数据 的 合理 组 织 和 共享 ,保证 数据 在 系统 
之 间 的 一 臻 性、 完整 性 、 安 全 性 和 正确 性 。 

数据 染 构 规划 中 需要 保证 数据 的 安全 性 、 可 用 性 、 完 整 性 、 真 实 性 和 抗 抵赖 性 。 
数据 架构 的 指导 原则 包括 灵活 性 原则 、 蜗 效 性 原则 、 可 扩展 性 原则 、 数 据 共 至 原则 、 
数据 可 用 性 原则 、 数 据 安全 性 原则 。 

一 般 来 说 ， 数 据 染 构 包 含 数 据 模型 和 分 类 、 数 据 分布 和 流转 等 内 容 。 对 于 数据 治理 来 
说 ， 它 是 为 了 提升 数据 架构 各 个 层次 的 管控 和 协作 能 力 。 同 时 数据 架构 为 数据 治理 提 
供 基础 能 力 文 撑 ， 因 此 ， 数 据 治理 与 数据 以 构 可 以 说 是 相辅相成 的 。 

对 于 数据 染 构 来 说 ， 我 们 可 以 从 几 个 方面 去 了 解 现状 存在 的 问题 是 什么 。 例 如 ， 判 断 
数据 染 构 的 原则 是 否 清 晰 、 架 构 层 次 的 划分 古人 否 合 理 等 内 容 。 

对 采集 的 数据 项 进行 分 析 ， 判 断 是 否 能 满足 对 产品 的 加 工 需求 ， 效 率 问 题 是 否 存在 改 
善 的 空间 ， 是 否 能 够 文 持 数据 的 快速 入 库 ， 不 同系 统 之 间 的 数据 是 否 可 以 共 齐 ， 是 否 
可 以 规划 数据 交换 平台 ， 提 高 数据 加 工 的 效率 ， 保 证 数据 架构 满足 灵活 性 、 高 效 性 和 
可 扩展 性 。 

数据 模型 是 指 用 实体 、 属 性 及 其 关系 对 企业 运营 和 管理 过 程 中 涉及 的 业务 概念 和 逻辑 
规则 进行 统一 定义 、 命 名 和 编码 。 

数据 模型 是 对 数据 特征 的 抽象 ， 它 一 般 分 为 概念 模型 、 人 逻辑 模型 和 物理 模型 。 概 念 模 
型 是 以 数据 分 类 的 形式 体现 ， 而 逻辑 模型 以 ER 图 的 形式 体现 。 

概念 模型 是 从 业务 的 角度 对 数据 进行 抽象 ， 包 括 业 务 层面 上 主题 域 的 划分 ， 以 及 各 个 
主题 域 下 的 数据 分 类 和 基于 分 类 的 非 功能 属性 。 

数据 分 类 是 根据 业务 特征 对 数据 进行 归 类 和 划分 ， 并 用 层级 列表 的 方式 展示 数据 内 
容 。 数 据 分 类 的 规范 需要 满足 各 种 业务 需求 对 数据 组 织 的 要 求 。 

数据 分 类 是 概念 模型 的 体现 。 

数据 分 类 的 目标 是 可 以 促进 业务 人 员 和 技术 人 员 之 间 的 沟通 ,指导 技术 人 员 对 数据 格 
式 的 制定 ， 指 导数 据 的 分 布 和 流转 。 

。 逻 辑 数 据 模型 是 用 来 发 现 、 记 录 和 沟通 业务 的 详细 “蓝图 ”， 由 一 系列 表 和 实体 详细 
描述 组 成 ， 是 通用 的 业务 语言 ， 便 于 业务 与 业务 之 间 的 功能 理解 ， 这 循 第 三 范式 ， 包 
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括 主题 域 的 设计 、 基 本 实体 的 设计 和 主要 属性 的 设计 ,是 全 人 员 和 业务 人 员 沟 通 的 
工具 和 桥架 。 

e 物理 模型 是 对 逻辑 模型 针对 具体 实现 环境 的 物理 化 ， 可 以 不 遭 循 第 三 范式 ， 主 要 包括 
实体 属性 的 物理 化 ， 属 性 的 长 度 、 类 型 、 主 键 、 外 键 、 索 引 等 详细 设计 。 

。 针对 主题 域 下 数据 分 类 ， 需 要 从 变动 频率 、 变 动量 、 变 动 梗 式 、 效 据 量 大 小 、 格 式 、 
共享 性 等 各 个 维度 进行 分 析 。 数 据 分 类 的 非 功能 属性 对 于 数据 分 布设 计 具 有 重要 的 参 
考 意义 。 

e 对 于 未 来 数据 架构 可 以 参考 以 下 的 思想 : 痛 先 强调 数据 的 存储 与 流转 ， 文 持 层次 化 的 
处 理 ， 包 括 对 结构 化 数据 与 非 箔 构 化 数据 的 处 理 能 

® 数据 分 布 : 数据 分 布 主要 包括 业务 分 布 与 系统 分 布 。 数 据 分 布 主要 分 析 数 据 在 各 个 环 
节 中 的 创建 、 引 用 、 更 新 和 删除 ， 并 根据 业务 对 数据 的 处 理 特点 ， 合 理 规 划 数 据 的 
分 布 。 

e 数据 架构 不 包含 数据 治理 方面 的 内 容 ,， 但 是 数据 染 构 为 数据 治理 提供 基础 能 力 支 撑 ， 
而 数据 治理 的 目的 是 提升 数据 架构 各 个 层次 的 省 控 及 其 协作 能 

。 数据 架构 的 改进 方向 : 首先 应 该 明确 数据 架构 总 体 指导 原则 是 什么 ， 以 此 原则 指导 未 
来 数据 架构 。 明 确 数 据 架构 的 各 个 层级 ， 对 每 个 层级 进行 数据 治理 。 

。 数据 流转 是 描述 业务 分 类 在 各 个 逻辑 库 之 间 的 流转 情况 。 

。 数据 归档 是 定期 将 基础 数据 存储 、 应 用 的 数据 进行 归档 保存 ， 它 的 目的 是 为 了 保存 原 
始 数 据 。 原 则 上 数据 归档 对 中 间 数 据 或 者 临时 数据 不 进行 归档 操作 。 数 据 归档 可 以 帮 
助 数据 再 次 核对 和 备查 。 数 据 归档 包括 在 线 和 存储 、 近 线 存储 和 离线 存储 。 

e 数据 架构 在 效率 、 灵 活性 以 及 扩展 性 方面 可 以 满足 业务 的 需求 ， 因 为 加 载 区 仅仅 存储 
最 近 上 一 期 的 历史 数据 ， 目 的 是 为 了 文 持 快 速 加 载 和 校 验 。 加 载 区 通过 寻 出 文件 的 方 
式 ， 同 时 对 查询 库 、 主 数据 和 数据 仓库 同时 供 数 。 基 础 查询 关 产 品 在 查询 库 中 单独 加 
工 , 分 析 类 产品 和 对 实时 性 要 求 不 高 的 产品 在 数据 仓库 中 加 工 。 对 于 基础 数据 存储 来 
说 ， 它 是 唯一 可 信和 的 数据 源 ， 对 于 查询 类 产品 的 加 工 ， 它 直接 从 基础 数据 存储 中 增 量 
获取 。 对 于 数据 仓库 来 次 ， 它 按 主题 存储 基础 数据 ， 用 于 实时 性 要 求 不 高 的 统计 分 析 
或 者 挖 据 分 析 。 
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第 4 和 芋 数据 架构 守 例 


本 章 目标 
通过 前 一 章 的 学 习 ， 我 们 已 经 理解 了 数据 架构 的 工作 方法 和 指导 原则 ， 包 括 概 念 模型 、 
逻辑 模型 、 物 理 模 型 的 建设 ,数据 分 类 的 规划 ， 未 来 数据 架构 的 分 布 和 流转 的 建设 ， 对 数据 











架构 的 验证 等 内 容 。 
本 章 在 前 一 章 的 基础 上 ， 重 点 介绍 项 目 总 体 规划 的 几 个 阶段 、 系 统 项 目 建设 过 程 中 可 能 








面临 的 风险 和 对 策 、 某 金融 行业 数据 架构 的 相关 案例 。 包 括 数据 架构 的 分 布 、 流 转 、 加 工 的 
处 理 时 序 、 数 据 纠 错 方案 介绍 、 数 据 架 构 的 优化 和 数据 架构 实施 规划 等 内 容 。 

学 习 本 章 后 ， 读 者 将 掌握 : 

e。 数据 架构 在 项 目 阶 段 规划 中 的 地 位 

e 项 目 总 体 规划 的 几 个 阶段 

e 系统 建设 策略 

e 项 目 阶段 建设 计划 

e 系统 项 目 建设 过 程 中 可 能 面临 的 风险 和 对 策 

e 任务 分 析 规 划 

e。 某 金 融 行业 数据 架构 的 分 布 规划 

e。 某 金 融 行业 数据 架构 的 流转 规划 

e 数据 架构 的 纠 错 更 正 需求 

e 数据 加 工 处 理 时 序 规划 

e 数据 架构 在 线 纠 错 更 正方 案 设计 

e 在 线 纠 错 更 正 的 指导 原则 

e。 非 功 能 性 需求 

。 某 金融 行业 数据 架构 优化 

e 某 金融 行业 数据 架构 案例 描述 

e 主 数据 规划 

® 数据 仓库 规划 

e 数据 交换 平台 规划 

e 产品 加 工 流程 概述 

® 数据 架构 实施 规划 

e 系统 切换 规划 案例 


4.1 菏 金 融 行 业 数 据 染 构 的 醒 期 规划 


4.1.1 理解 数据 架构 在 项 目 规划 中 的 地 位 


数据 架构 在 项 目 规 划 中 占有 非常 重要 的 地 位 。 
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项 目 阶段 分 成 以 下 几 个 部 分 : 项 目 局 动 阶段 ， 现 状 评 佑 、 高 阶 需 求 分 析 阶 段 、 如 构 设计 
和 规划 阶段 以 及 实施 规划 和 运 维 阶段 ， 如 图 4-1 所 示 。 其 中 现状 评估 和 高 阶 需求 分 析 阶 段 
主要 是 理解 企业 发 展 战 略 和 业务 需求 ， 对 系统 现状 评估 和 高 阶 需求 进行 分 析 。 在 架构 设计 和 
规划 阶段 ， 主 要 包含 应 用 架构 、 数 据 架 构 、 拉 术 架 构 和 开 治理 等 内 容 。 最 后 一 个 阶段 就 是 
实施 规划 和 运 维 阶段 。 


me z ’ Pr — 
图 4-1 数据 架构 项 目 阶段 划分 


4.1.2 项 目 总 体 规划 的 几 个 阶段 
在 系统 总 体 规划 过 程 中 ， 离 不 开 下 面 3 个 阶段 .现状 分 析 和 需求 分 析 阶 段 、 总 体 规划 设 


计 阶 段 和 总 体 架 构 实施 规划 阶段 ， 如 图 4-2 所 示 。 








主要 包括 : 数据 架构 规划 、 








围绕 战略 意图 ， 总 结 未 来 
需求 ， 对 系统 进行 现状 分 





析 ， 并 总 结 信息 化 需求 。 








分 析 当 前 系统 应 用 ， 以 及 


应 用 架构 规划 、 技 术 架 构 
规划 、IT 管控 架构 规划 和 
灾难 备份 专题 。 


实施 规划 包括 : 实施 路 线 
图 的 规划 及 项 目 费 用 估算 ， 
对 项 目 进行 定义 ， 制 定 项 
目 实施 计划 等 内 容 。 


数据 、 技 术 架 构 现状 。 分 
析 当 前 治理 现状 ， 提 出 改 


进 意 见 。 





图 4-2 系统 总 体 规划 

其 中 现状 分 析 和 需求 分 析 阶 段 主 要 是 围绕 战略 意图 ， 总 结 未 来 需求 ， 对 系统 进行 现状 分 
析 ， 并 总 结 信息 化 需求 。 分 析 当 前 系统 应 用 ， 以 及 数据 和 技术 架构 现状 ， 提 出 改进 建议 。 分 
析 当 前 架构 治理 现状 ， 提 出 改进 建议 。 

总 体 规划 设计 主要 包括 数据 架构 规划 、 应 用 架构 规划 、 技 术 架 构 规 划 、IT 管控 架构 规 
划 和 灾难 备份 专题 。 

实施 规划 包括 实施 路 线 图 的 规划 及 项 目 费 用 佑 算 ， 对 项 目 进行 定义 ， 制 定 项 目 实 施 计划 
等 内 容 。 
4. 1.3 系统 建议 策略 

系统 建设 策略 主要 包含 以 下 两 种 方式 : 统一 开发 、 统 一 推广 和 快速 建设 方式 。 
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1. 统一 开发 、 统 一 推广 

这 种 建设 策略 是 先 建设 系统 的 全 部 内 容 ， 然 后 再 逐步 推广 。 优 点 是 阶段 划分 清晰 ， 管 理 
难度 较 小 ， 但 缺点 是 周期 长 ， 前 期 推广 内 容 多 ， 对 业务 变化 的 适应 能 力 较 弱 。 

2. 快速 建设 方式 

这 种 建设 策略 是 在 统一 规划 的 基础 上 ， 尽 早 完成 基础 平台 的 建设 ， 然 后 按照 业务 重点 需 
求 ， 快 速 开 发 核心 的 系统 ， 再 逐步 推广 应 用 ， 最 后 按照 优先 级 别 的 高 低 ， 完 成 系统 的 建设 和 
优化 ， 如 图 4-3 所 示 。 整 个 系统 将 涵盖 所 有 的 业务 需求 。 这 种 方式 的 优点 是 可 以 迅速 抓 住 
重点 ， 能 够 快速 见效 。 可 以 把 项 目 建设 分 成 多 个 子 项 目 ， 将 核心 系统 的 推广 和 其 他 子 项 目的 
建设 结合 起 来 ， 缩 短 时 间 周 期 ， 节 约 开发 成 本 。 














应 用 推广 阶段 





图 4-3 快速 建设 方式 





对 于 快速 建设 方式 的 解读 ， 可 以 分 别 从 如 何 开 发 基础 平台 和 核心 应 用 、 如 何 完 成 应 用 的 
推广 、 业 务 提升 和 优化 系统 等 几 个 方面 进行 ， 如 图 4-4 所 示 。 










章 循 需求 和 总 体 架 构 设 计 ， 完 成 系统 核心 应 用 开发 








选择 试点 ， 试 运行 系统 ， 按 照 推广 计划 ， 逐 步 推进 系统 管理 项 目的 实施 ， 
负责 应 用 试点 和 推广 工作 的 组 织 和 推进 





配合 业务 运营 和 应 用 系统 运 维 ， 持 续 优 化 系统 ， 
完成 新 增 需 求 的 建设 ， 加 快 系统 产品 和 服务 的 推广 ， 
扩大 系统 数据 采集 、 服 务 对 象 和 产品 的 范围 


图 4-4 快速 建设 方式 的 解读 
4.1.4 项 目 阶 段 建设 计划 
项 目 阶段 的 建设 计划 主要 包含 以 下 几 个 方面 : 项 目 启动 、 需 求 分 析 、 系 统 设 计 、 开 发 和 


00 


测试 以 及 项 目 验收 等 内 容 ， 如 图 4-5S 所 示 。 


项 目 启动 


需求 分 析 





项 目 阶 段 的 建设 计划 






系统 设计 
开发 和 测试 


项 目 验收 


图 4-5 项 目 阶 段 的 建设 计划 





其 中 项 目 局 动 包括 制定 项 目 计 划 、 项 目 章 程 和 制度 等 准备 工作 。 

需求 分 析 包 括 需求 调研 、 原 型 开发 、 需 求 分 析 等 工作 。 

系统 设计 包括 染 构 设计 、 功 能 设计 、 数 据 库 设计 等 工作 。 

开发 和 测试 主要 包括 功能 开发 、 系 统 对 外 接口 开发 、 单 元 测试 、 功 能 测试 、 性 能 测试 、 
用 户 测试 集成 测试 等 内 容 。 

最 后 是 项 目的 验收 。 

如 图 4-6 所 示 ， 针 对 项 目 建 设计 划 ， 可 以 对 基础 设施 、 容 灾 系 统 、 产 品 加 工 、 对 外 服 


务 、 数 据 加 工 和 数据 采集 进行 建设 。 


基础 设施 建设 








项 目 启 动 
需求 分 析 
系统 设计 
开发 和 测试 





图 4-6 项 目 建 设计 划 的 主要 内 容 


4.1.5 预算 及 风险 效 谷 分 析 


1. 预算 
预算 主要 包含 两 个 方面 的 内 容 : 一 是 对 硬件、 软件 平台 、 应 用 软件 和 各 种 服务 的 投资 和 
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AN 


pp 


硬件 费用 平台 软件 





~ 


应 用 软件 /a 


图 4-7 项 目 预算 


(1) 便 件 费 用 

便 件 费 用 主要 包括 各 种 服务 具 、 存 储 、 网 络 等 配套 设施 的 费用 。 

(2 平台 软件 

平台 软件 费用 主要 包括 各 种 操作 系统 、 数 据 库 、 中 间 件 等 基础 平台 软件 的 费用 。 

(3) 应 用 软件 

应 用 软件 费用 主要 包括 各 种 专业 应 用 系统 的 实施 费用 ， 如 人 力 资 源 管理 系统 、 数 据 仓 
库 、 财 务 管理 系统 、IT 审计 和 日 志 管 理 平 台 、IT 运 维 管 理 平台 、CRM 系统 的 建设 和 实施 。 

(4) 服务 费用 

服务 费用 主要 包括 项 目 管 理 、 系 统 染 构 设 计 、 编 码 的 费用 。 例 如 ， 某 商业 银行 预算 如 
图 4-8 所 示 。 

















硬件 费用 710 700 700 2110 
平台 软件 110 90 110 310 
应 用 软件 230 200 230 660 
服务 费用 50 50 50 150 
费用 总 计 1100 1040 1090 3230 


图 4-8 服务 费用 举例 
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2. 风险 效益 分 析 
在 系统 建设 过 程 中 ， 面 临 的 风险 包括 : 组 织 风 险 、 业 务 变 单 风险、 技术 风险 和 项 目 管理 
风险 ， 如 图 4-9 所 示 。 


业务 变 单 风险 


项 目 管理 风险 











图 4-9 系统 建设 过 程 中 可 能 面临 的 风险 


e 组 织 风险 

可 能 出 现 的 风险 包括 企业 未 来 组 织 的 不 确定 性 ， 它 会 影响 业务 的 流程 和 范围 ， 从 而 影响 
系统 的 建设 。 应 对 这 种 风险 的 策略 是 明确 业务 策略 和 发 展 方 品 ， 合 理 规划 组 织 机 构 。 

e 业务 变 单 风险 

可 能 出 现 的 风险 是 业务 流程 的 调整 有 可 能 影响 岗位 职责 的 变化 。 应 对 这 种 风险 的 策略 包 
括 业 务 变 音 得 到 企业 高 层 的 支持 ， 提 前 做 好 应 对 的 准备 。 

e 技术 风险 

可 能 出 现 的 风险 是 随 着 技术 不 断 创新 和 发 展 ， 对 技术 的 选择 会 带 来 相应 的 风险 ， 从 而 造 
成 技术 先进 性 和 成 熟 性 难以 平衡 。 为 了 避免 技术 风险 ， 我 们 应 该 选择 成 熟 度 较 高 的 产品 。 

e 项 目 管 理 风 险 

可 能 出 现 的 风险 是 没有 清晰 的 管理 机 制 和 组 织 ， 造 成 职责 不 清和 进度 延缓 。 应 对 这 种 风 
险 的 策略 是 采用 成 熟 的 项 目 管理 办 法 。 

建设 项 目 效益 分 析 主 要 是 提高 核心 业务 能 力 和 流程 执行 效率 ， 建 立 满足 需求 的 系统 架构 
体系 等 内 容 ， 如 图 4-10 所 示 。 主 要 表现 在 以 下 几 个 方面 : 

1) 提高 核心 业务 能 力 是 为 了 满足 业务 需求 ， 建 立 高 效 、 灵 活 和 可 扩展 的 系统 ， 提 升 产 
品 加 工 能 力 和 对 外 服务 能 

2) 提高 流程 的 执行 效率 是 为 了 实现 核心 业务 规范 化 管理 和 服务 ， 通 过 对 关键 业务 点 的 
提示 和 控制 ， 提 升 业 务 效率 ， 防 范 各 种 风险 。 
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建 并 满足 需求 的 


系统 架构 体系 





图 4-10 项 目 效 益 分 析 
3) 建立 满足 需求 的 系统 架构 体系 。 例 如 ， 应 用 架构 应 该 满足 业务 前 脆性 和 可 落地 要 
求 ， 实 现 应 用 企业 化 。 效 据 膝 构 满足 灵活 、 高 效 、 可 扩展 、 效 据 共 京 和 数据 安全 等 架构 要 
求 。 技 术 染 构 采 用 成 熟 拉 术 ， 符 合 信 息 化 相关 规范 ， 保 证 系统 平稳 过 渡 ， 并 复 用 现 有 资产 。 


4. 1.6 任务 分 析 
针对 某 金融 行业 信息 化 建设 ， 可 以 分 成 以 下 几 个 任务 ， 如 图 4-11 所 示 。 





用 


数据 处 理 和 





任务 分 析 








图 4-11 某 金 融 行 业 信息 化 建设 的 任务 分 析 


(1 ) 信息 采集 任务 

信息 采集 任务 主要 是 充实 采集 内 容 ， 优 化 采集 方式 ， 根 据 业 务 需 求 ， 动 态 地 增加 采集 信 
息 。 例 如 ， 在 个 人 欠 款 信息 中 增加 欠 款 发 生 的 日 期 。 同 时 需要 扩大 对 公共 信息 的 采集 ， 包 括 
各 种 的 税务 信息 、 司 法 信息 和 电信 信息 等 。 

(2) 数据 处 理 和 加 工 任务 

数据 人 处理 和 加 工 任务 是 建立 数据 人 处理 和 快速 加 工 啊 应 机 制 ， 能 够 将 各 种 新 业务 快速 纳入 
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到 系统 中 ， 提 高 数据 的 自动 化 处 理 能 力 和 快速 加 载 能 力 。 例 如 ， 可 以 将 客户 的 信用 评分 能 
力 、 身 份 验证 、 关 联 查 询 、 风 险 预 警 和 各 种 的 数据 统计 功能 快速 接 人 到 系统 中 。 

(3) 应 用 

应 用 任务 是 建立 多 样 化 的 产品 交付 方式 ， 如 离线 交付 、 专 网 交付 等 ， 尽 量 做 到 7 x24 对 
外 服务 。 

随 着 大 数据 时 代 的 到 来 ， 数 据 应 用 可 以 产生 更 
大 的 机 遇 和 挑战 。 只 有 更 好 地 利用 数据 ， 才 能 在 未 ”统计 分 析 
来 的 竞争 中 获得 更 大 的 优势 。 一 般 来 说 ， 数 据 的 应 ~ 
用 主要 包括 报表 功能 、 统 计 分 析 和 数据 挖掘 三 种 方 、@ 寺 0 数据 挖 扫 
式 ， 如 图 4-12 所 示 。 SA ) ~ 

(1) 报表 功能 "I 

报表 功能 是 数据 应 用 的 基础 ， 也 是 最 传统 和 党 yb L 
见 的 数据 应 用 。 报 表 是 决策 分 析 的 基础 。 报 表 功 能 
的 完善 、 灵 活 程 度 能 够 影响 工作 的 效率 。 图 4-12 数据 的 应 用 

(2) 统计 分 析 

统计 分 析 功 能 是 常见 的 数据 应 用 方式 。 随 着 统计 分 析 工 具 的 推广 ， 统 计 分 析 在 很 多 行业 
中 得 到 了 越 来 越 广泛 的 应 用 。 例 如 ， 通 过 假设 检验 或 者 方差 分 析 帮 助 分 析 经 济 运行 的 规律 。 

(3) 数据 挖掘 

数据 挖掘 是 数据 统计 分 析 的 进一步 发 展 ， 是 对 数据 的 深度 应 用 。 

数据 挖掘 起 源 于 20 世纪 70 年代， 但 在 最 近 10 年 内 得 到 了 广泛 的 应 用 和 发 展 ， 特 别 是 
在 金融 行业 、 电 信行 业 、 互 联网 行业 等 。 

数据 挖掘 的 目的 是 为 了 发 现 数据 背后 隐藏 的 规律 ， 它 可 以 通过 使 用 模型 来 表达 复杂 的 事 
物 和 现象 。 例 如 ， 通 过 使 用 回归 分 析 、 聚 类 分 析 和 分 类 分 析 等 数据 挖 气 手段 在 银行 业 中 发 现 
事物 的 本 质 和 规律 。 

总 之 ,我 们 可 以 通过 报表 功能 、 统 计 分 析 、 数 据 挖 气 等 技术 手段 利用 数据 和 使 用 数据 ， 
为 决策 者 提供 决策 依据 和 技术 支持 。 


4.2 某 金 融 行业 数据 架构 的 分 布 规划 









数据 分 布 主要 包括 业务 分 布 和 系统 分 布 。 数 据 分 布 可 以 分 析 业 务 和 系统 之 间 各 个 环 市 的 
创建 、 修 改 和 删除 关系 ， 同 时 可 以 分 析 应 用 系统 中 数据 结构 和 系统 各 个 模块 之 间 的 关系 。 

其 中 业务 对 数据 的 处 理 主要 包括 数据 的 采集 、 加 工 和 对 外 服务 三 种 类 型 的 业务 处 理 。 因 
此 ， 在 设计 数据 染 构 时 ,根据 业务 对 数据 的 处 理 特点 ， 规 划 设 计 合理 的 数据 分 布 ， 以 满足 相 
天 业务 的 需求 。 

在 规划 数据 分 布 时 ， 需 要 考虑 合适 的 技术 方案 来 满足 以 下 需求 : 

1) 明确 不 同位 置 之 间 的 数据 定位 和 数据 流 问 。 

2) 保证 对 海量 数据 的 快速 加 载 和 不 同 数据 库 之 间 数 据 的 快速 增 量 迁移 。 

3) 保证 海量 数据 的 快速 产品 加 工 。 

4) 应 该 适应 数据 采集 的 多 样 化 、 产 品 加 工 的 多 样 化 和 对 外 服务 配置 化 等 特点 。 
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5) 可 以 适应 数据 的 纠 销 更 新 机 制 。 
数据 架构 框架 包含 数据 采集 层 、 效 据 加 工 层 和 应 用 服务 层 ， 如 图 4-13 所 示 。 
数据 采集 层 数据 加 工 层 应 用 服务 层 
= “==N 











数据 源 


\N、 
EH 


数 
据 
Te 
集 
平 
合 





数据 管控 体系 


图 4-13 数据 架构 框架 详细 摘 述 


下 面 对 数 据 采集 层 、 数 据 加 工 层 和 应 用 服务 层 进行 详细 描述 。 

(1) 数据 采集 层 

数据 采集 层 主 要 包括 数据 源 和 统一 数据 采集 平台 。 统 一 数据 采集 平台 的 目的 是 统一 数据 
采集 ， 包 括 定期 全 量 、 增 量 的 采集 。 

(2) 数据 加 工 层 

数据 加 工 层 包括 数据 处 理 平 台 、 产 品 生产 平台 、 数 据 仓 库 、 评 级 系统 、 归 档 数 据 及 











应 用 





数据 处理 平台 一 般 是 批量 、 实 时 地 对 增 量 数据 或 者 全 量 数据 进行 处 理 ， 这 种 方式 可 以 依 
赖 一 些 主流 的 关系 型 数据 库 和 大 型 平台 来 实现 。 
产品 生产 平台 主要 是 针对 数据 类 的 产品 进行 生产 ,一 般 要 求 系统 可 以 处 理 海量 数据 和 复 
杂 的 数据 ， 要 求 高 并 发 和 7 x24 小 时 不 停机 。 这 种 方式 可 以 依赖 于 大 型 的 平台 。 
数据 仓库 以 存储 历史 数据 为 主 ， 用 于 对 历史 数据 的 分 析 ， 文 持 灵 活 分 析 和 查询 。 数 据 仓 
库 应 该 有 海量 数据 处 理 能 力 、 线 性 扩展 能 力 和 高 可 用 性 。 
评级 系统 是 金融 行业 的 一 个 应 用 系统 ， 主 要 用 于 对 客户 的 评分 。 
归档 数据 是 对 归档 数据 的 存储 ， 原 则 上 存储 历史 的 原始 数据 。 
应 用 主要 包括 评分 、 分 析 报 表 、 客 户 服务 、 风 险 预 警 和 一 些 目 定义 产品 等 内 容 。 
(3) 应 用 服务 层 
应 用 服务 层 包 括 管理 驾驶 舱 、 固 定 报表 、OLAP 分 析 、 数 据 挖掘、 应 用 查询 等 内 容 。 
综 上 所 示 ， 该 数据 架构 框架 基本 满足 了 业务 逢 求 。 统 一 数据 采集 平台 从 数据 源 中 采集 数 
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据 ， 经 过 数据 处 理 平台 ， 可 以 实时 、 批 量 地 将 增 量 数据 或 者 全 量 数据 分 发 到 产品 生产 平台 、 

数据 仓库 、 评 级 系统 中 ， 对 于 一 些 历史 数据 也 可 以 放 到 归档 数据 中 。 最 后 在 数据 加 工 层 对 数 
据 进 行 加 工 处 理 ， 满 足 应 用 的 需求 。 

针对 金融 行业 信息 化 总 体 建 设 的 任务 需要 ， 可 以 对 数据 架构 做 进一步 修改 和 优化 ， 如 

图 4-14 所 示 。 

数据 源 








数据 交换 平台 数据 临时 区 数据 加 工区 应 用 





实时 / 批量 方式 


抽取 /订阅 | 


数据 加 载 / 发 布 
数据 质量 
公共 数据 转换 


图 4-14 ”对 数据 架构 的 修改 和 优化 

下 面 对 各 个 层次 进行 详细 说 明 。 

(1) 数据 源 

数据 源 主要 以 结构 化 数据 和 非 结构 化 数据 为 主 ， 定 义 数 据 采 集 的 来 源 、 内 容 、 格 式 和 和 采 
生 方 二 

(2) 内 容 管理 

内 容 管 理 主要 为 半 结 构 化 和 非 结 构 化 数据 提供 捕获 、 管 理 和 存储 等 方面 的 服务 ， 也 就 是 
非 结构 化 数据 的 结构 化 处 理 。 

(3) 数据 交换 平台 

数据 交换 平台 主要 为 外 部 数据 交换 和 内 部 数据 交换 提供 支持 。 

(4) 数据 仓库 

数据 仓库 是 根据 业务 需求 ， 对 历史 数据 进行 整合 、 轻 度 汇总 和 加 工 ， 提 供 分 析 的 功能 。 

(5) 主 数据 

主 数据 主要 对 刁 份 信息 进行 识别 和 整合 。 

(6) 加 载 库 

加 载 库 主要 提供 对 源 数据 进行 校 验 的 功能 。 

(7) 基础 数据 

基础 数据 主要 获取 校 验 通 过 的 数据 ， 作 为 后 续 加 工 的 唯一 可 信 数 据 源 。 

(8) 查询 库 

查询 库 主要 存储 查询 类 应 用 的 信息 。 


非 结构 化 数据 
间 数据 仓库 本 
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(9) 应 用 

应 用 主要 提供 对 外 查询 服务 。 

未 来 数据 架构 的 主要 内 容 包括 数据 源 、 内 容 管理 、 数 据 交 搞 、 数 据 仓 库 和 应 用 ， 如 
图 4-15 所 示 。 





数据 源 数据 交换 





mer 


图 4-15 未 来 数据 架构 的 主要 内 容 


应 用 





(1) 数据 源 
结合 业务 特点 和 数据 特征 ， 对 源 数据 层 进行 规划 ， 同 时 需要 充分 考虑 灵活 性 和 可 扩展 性 











的 要 求 。 如 图 4-16 所 示 ， 数 据 源 层 提供 需要 的 源 数据 ， 可 以 描述 从 哪里 、 以 什么 样 的 方式 
和 渠 疙 加 载 到 系统 中 。 采 集 数 据 分 为 结构 化 数据 和 非 结 构 化 数据 ， 非 结构 化 数据 主要 来 日 互 
联网 ， 结 构 化 数据 主要 来 日 金融 机 构 和 公共 部 门 。 

数据 源 


数据 源 层 提 供需 要 的 源 数据 ， 可 以 描述 从 哪里 、 以 什 

= 么 样 的 方式 和 渠道 加 载 到 系统 中 。 采 集 数据 分 为 结构 
化 数据 和 非 结构 化 数据 ， 非 结构 化 数据 主要 来 自 互联 
网 ， 结 构 化 数据 主要 来 自 金融 机 构 和 公共 部 门 





图 4-16 数据 源 的 特点 


(2) 内 容 管理 

内 容 管 理 是 指 对 内 部 多 种 格式 的 信息 资源 进行 组 织 、 分 类 和 管理 的 过 程 。 内 容 管理 作为 
一 种 应 用 软件 ， 管 理 和 访问 各 种 非 结构 化 数据 ， 包 括 各 种 音频 、 视 频 、 网 像 等 信息 。 内 容 管 
理 处 理 的 信息 对 象 比 传统 的 关系 型 数据 库 管 理 系 统 处 理 的 数据 范围 更 加 广泛 ， 包 括 文字 、 多 
媒体 、 网 页 、 广 告 和 文档 等 。 





内 容 管 理 重点 解决 非 结 构 化 数据 和 半 结 构 化 数据 的 采集 和 管理 问题 。 然 后 将 这 些 效 据 集 
成 到 信息 系统 中 。 
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(3) 数据 交换 

数据 交换 层 满足 数据 架构 各 个 层次 之 间 的 协作 要 求 ， 承 载 着 外 部 和 内 部 的 数据 交换 。 一 
般 来 说 ， 数 据 交 换 层 包括 数据 抽取 和 订阅、 质量 检查 、 数 据 转 换 和 数据 加 载 等 几 个 方面 ， 如 
图 4-17 所 示 。 





数据 临时 区 数据 加 工区 






加 载 库 名 
基础 数据 主 数据 


> AN 
数据 源 人 





图 4-17 数据 交换 层 


其 中 抽取 /订阅 是 从 数据 源 层 、 数 据 临时 区 中 获取 增 量 或 者 全 量 数据 ， 然 后 分 发 到 各 个 
加 工 库 或 者 应 用 库 。 

数据 质量 保证 数据 质量 检查 、 清 洗 后 ， 数 据 可 以 满足 基本 的 质量 要 求 。 

公共 数据 转换 是 经 过 数据 质量 清洗 后 的 数据 进行 业务 和 技术 规则 转换 。 

数据 加 载 / 发 布 将 生成 数据 文件 ， 然 后 加 载 到 数据 库 中 。 

(4) 数据 仓库 

数据 仓库 主要 提供 面向 主题 的 、 集 成 的 、 随 时 间 变 化 的 ， 但 信息 本 身 相 对 稳定 的 数据 集 
合 ， 它 主要 用 于 对 决策 分 析 的 支持 。 

根据 业务 要 求 ， 在 数据 架构 规划 中 设置 数据 加 工 层 ， 同 时 在 数据 加 工 层 中 设置 数据 仓 
库 。 数 据 仓库 一 般 以 基础 数据 整合 和 汇总 数据 加 工 为 主 。 

数据 仓库 整合 全 局 的 信息 ， 包 括 基础 数据 层 、 汇 总 加 工 层 和 集 市 层 。 

数据 仓库 中 的 数据 包含 历史 信息 ， 记 录 了 从 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 信息 。 一 
般 来 说 ， 数 据 仓 库 的 数据 不 做 删除 和 更 新 处 理 。 通 过 这 些 信 息 ， 可 以 为 企业 的 发 展 历程 和 未 
来 趋势 做 出 分 析 和 预测 。 

数据 仓库 存储 的 粒度 比较 细 ， 存 储 的 历史 周期 长 ， 可 以 在 基于 数据 整合 的 基础 上 创建 各 
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种 应 用 。 
(5) 应 用 
主要 存储 产品 数据 ， 并 对 外 提供 查询 服务 。 


4.3 ” 菏 金 融 行业 数据 染 构 的 流转 规划 








对 于 数据 架构 的 流转 来 说 ， 主 要 目的 是 降低 数据 元 余 度 、 提 高 数据 一 致 性 ， 进 而 达到 灵 
活 、 高 效 的 目的 。 

例如 ， 核 心 数据 不 反复 分 布 在 不 同 数据 库 中 ， 同 时 允许 合理 的 元 余 存 在 ， 基 础 数据 中 的 
数据 和 数据 仓库 中 基础 数据 层 的 数据 存在 元 余 ， 但 是 在 结构 和 功能 上 有 较 大 不 同 。 基 础 数据 
是 作为 唯一 可 信 数 据 源 对 后 续 所 有 应 用 供 数 ， 而 数据 仓库 中 基础 数据 层 的 数据 是 为 了 库 内 汇 
总 和 加 工 做 准备 的 ， 如 图 4-18 所 示 。 





PB 恒 
增 量 
口 » 
品类 


加 载 ， 可 以 根据 产 
型 设置 多 个 库 ， 实 
现 可 扩展 性 


可 以 采用 多 通道 并 | | 识别 增 县 
发 方式 进行 采集 


加 载 库 基础 数据 


数据 采集 ， 实 现 逻 辑 校 验 ， 通 过 





配置 方式 实现 各 种 校 验 规则 





图 4-18 数据 架构 的 流转 规划 


4.4 和 某 金 融 行业 数据 加 工 处 理 时 序 规 划 


如 图 4-19 所 示 ， 在 数据 临时 存储 区 中 ， 数 据 可 以 多 路 并 行 执行 校 验 和 加 载 ， 然 后 在 基 
础 数据 中 进行 存储 ， 最 后 按照 某 个 时 间 周期 往 后 进行 增 量 数据 迁移 。 

在 数据 加 工区 中 ， 合 如 凌晨 1 点 ， 可 以 在 数据 加 工区 中 对 前 一 天 的 数据 进行 加 工 和 计 
算 ， 其 中 查询 库 数据 加 工 、 主 数据 加 工 和 数据 仓库 数据 加 工 可 以 并 行 执行 ， 最 后 在 早晨 8 点 
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左右 ， 加 工 完成 后 对 外 提供 服务 。 当 然 ， 我 们 也 可 以 考 愿 利用 双 机 备份 机 制 来 对 外 提供 不 间 
靳 服务 。 


| | | 

| | | 

| | | 

| | | 

查询 库 数据 加 工 。 

| 主 数据 加 工 | 

| | 数据 仓库 数据 加 工 

| | | 

| | | 

数据 源 校 验 ”基础 数据 存储 
CC 
| | | 
数据 临时 存储 | 数据 加 工 | 
FE 
第 一 天 的 数据 


| | 
按时 间 周 期 性 的 数据 
的 迁移 


图 4-19 金融 行业 数据 加 工 处 理 时 序 规划 





4.5 基金 融 行业 数据 架构 的 纠 错 更 正 需求 


4.5.1 数据 架构 纠 错 更 正 的 功能 性 需求 


某 金 融 行业 系统 的 纠 错 更 正 需求 主要 包括 基础 数据 的 数据 纠 错 更 正 需 求 、 查 询 库 的 数据 纠 
错 更 正 需 求 、 主 数据 的 数据 纠 错 更 正 需求 和 数据 仓库 的 数据 纠 错 更 正 需 求 。 下 面 分 别 讲述 : 

1. 基础 数据 的 数据 纠 错 更 正 需 求 

基础 数据 可 以 作为 唯一 可 信 的 数据 源 ， 在 基础 数据 做 的 任何 修改 也 都 会 通过 增 量 的 方式 
同步 到 数据 加 工区 中 进行 加 工 ， 然 后 在 应 用 层 得 到 体现 ， 因 此 ， 尽 量 在 基础 数据 中 进行 纠 错 
更 正 ， 这 样 有 利于 数据 的 一 致 性 。 但 是 为 了 更 好 地 控制 数据 ， 应 该 严格 管理 数据 纠 错 更 正 的 
权限 ， 所 有 的 动作 都 应 该 被 记录 ， 以 备 后 续 查 询 使 用 。 

2. 查询 库 的 数据 纠 错 更 正 需求 

对 于 碍 询 库 的 数据 纠 错 更正 需 求 ， 一 般 是 发 生 在 客户 提出 异议 申请 之 后 ， 由 系统 检查 、 
确认 是 否 是 源 系统 的 错误 ， 最 后 进行 数据 纠正 。 

3. 主 数 据 的 数据 纠 错 更 正 需 求 

主 数据 包含 身份 整合 信息 ， 针 对 不 同 的 信息 采用 不 同 的 整合 方式 ， 一 般 都 二 接 在 主 数据 
中 修改 信息 。 

4. 数据 仓库 的 数据 纠 错 更 正 需求 

原则 上 上， 数据 仓库 不 进行 数据 纠 错 更 正 ， 如 果 确 实 需要 修改 ， 应 该 记录 数据 修改 前 后 的 
值 ， 尽 可 能 保证 数据 的 可 追溯 性 和 审计 的 有 要求， 同时 保存 在 线 纠 错 请 求 的 发 起 人 、 发 起 时 

// 



































间 、 原因 等 信息 。 
4.S.2 非 功能 性 需求 


关于 数据 架构 的 非 功能 性 需求 ， 主 要 包括 以 下 几 对 开关 和 应 


个 方面 ， 如 网 4-20 所 示 。 
1. 对 并 发 和 啊 应 时 间 的 要 求 





我 们 需要 考虑 系统 在 线 纠 错 更 正 请 求 的 数量 是 多 
少 ， 这 种 并 发 量 对 系统 造成 的 压力 是 否 大 ， 而 客户 提 
交 请 求 系统 啊 应 的 时 间 应 该 维持 在 几 秒 以 内 。 数据 可 追 权限 控制 与 


NN V2 NS 湖 性 要 求 安全 性 要 求 
2. 数据 可 追溯 性 要 求 实 


当 客 户 提交 在 线 纠 错 更 正 请 求 后 ， 将 更 新 基础 数 
据 库 、 数 据 仓 库 、 主 数据 和 碍 询 库 中 对 应 的 数据 。 同 
时 记录 数据 变化 的 情况 ， 从 而 确保 数据 的 可 追溯 性 。 

3. 权限 控制 与 安全 性 要 求 

在 线 纠 错 更 正 属于 风险 较 大 的 操作 ， 可 能 会 对 数据 的 正确 性 、 一 致 性 和 完整 性 产生 影 
啊 。 因 此 ， 需 要 对 在 线 纠 钳 更 正 的 权限 进行 产 格 限制 。 


4. 5.3 在 线 纠 钳 更 正 的 指导 原则 


对 于 系统 的 在 线 纠 错 更 正 ， 需 要 你 证 数据 的 一 致 性 和 完整 性 。 在 线 纠 错 更 正 的 请 求 应 该 
尽 可 能 发 后 在 基础 数据 库 中 ， 因 为 当 更 新 完 基 础 数据 后 ， 上 再 通过 特殊 的 数据 加 工 迁 移 到 主 数 
据 、 数 据 仓 库 和 查询 库 中 。 

对 于 已 经 加 工 完成 的 数据 进行 在 线 纠 错 更 正 ， 如 果 无 法 通过 修改 基础 数据 中 的 数据 来 实 
现在 线 纠 错 ， 只 能 考虑 在 加 工区 中 修改 数据 。 对 于 所 有 的 在 线 纠 错 更 正 相 关 操 作 ， 必 须 保留 
兰 迹 ， 从 而 保证 数据 的 可 退 溯 性 。 


4. 5.4 数据 查询 


当 系 统 客服 人 员 接 到 客户 的 异议 申请 时 ， 痛 先 通过 查询 库 查询 相关 数据 ， 从 而 确定 客户 
有 反映 的 问题 是 否 存在 ， 然 后 通过 查询 结果 定位 是 属于 数据 源 的 问题 还 是 数据 加 工 叶 人 致 的 问 
题 。 为 了 避免 效 据 泄密 ， 需 要 对 数据 权限 进行 严格 控制 。 

当 客 服部 门 收 到 异议 处 理 请 求 时 ， 需 要 通过 查询 相关 数据 确定 是 数据 加 工 问题 还 是 数据 
源 的 问题 。 当 客服 部 门 或 者 相应 机 构 提 区 数据 纠 错 更 正 请 求 时 ， 如 条 提交 的 数据 通过 审核 ， 
那么 系统 将 会 更 新 对 应 的 基础 数据 存储 的 数据 ， 同 时 进行 数据 加 工 和 迁移 任务 的 操作 。 


4.6 某 金 融 行业 数据 架构 优化 





图 4-20 数据 架构 的 非 功能 性 需求 





























某 金 融 行 业 数 据 架 构 的 优化 主要 包含 以 下 几 个 方面 ， 如 图 4-21 所 示 。 

1) 优化 数据 采集 策略 。 

优化 数据 采集 策略 ， 细 化 数据 分 类 ， 根 据 数据 分 类 制定 不 同 的 采集 周期 和 采集 模式 宗 
略 。 统 一 规划 数据 采集 策略 ， 灵 活 配置 数据 采集 接口 和 调度 策略 等 内 容 。 
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医 优化 数据 采集 策略 


将 数据 采集 、 数 据 加 工 和 对 外 服务 统一 考虑 





明确 划分 数据 管理 阶段 


区 全 程 数 据 质 量 管理 | 
区 建立 数据 质量 管理 机 制 


图 4-21 基金 融 行 业 效 据 架 构 的 优化 











例如 ， 将 客户 的 收入 和 个 人 资产 独立 采集 和 存储 ， 用 于 不 同 的 产品 加 工 和 应 用 。 根 据 不 
同 数据 源 业 务 发 生 的 频率 和 周期 ， 采 用 不 同 的 数据 采集 策略 。 可 以 引入 一 些 市 场 化 的 操作 ， 
让 一 些 合作 机 构 辅助 数据 采集 的 工作 ， 扩 大 采集 的 范围 ， 减 少 本 系统 采集 的 压力 ， 同 时 增加 
数据 采集 的 灵活 性 。 

2) 将 数据 采集 、 数 据 加 工 和 对 外 服务 统一 考虑 。 

通过 监控 和 调度 管理 实现 任务 之 间 的 协调 工作 。 统 一 监控 各 生产 加 工 环节 任务 ， 根 据 阔 
值 指标 报警 异常 情况 ， 建 立 针对 事故 、 风 险 的 应 急 处 理 机 制 ， 以 优化 资源 的 使 用 。 

对 于 系统 来 说 ， 主 要 考虑 数据 采集 、 数 据 加 工 和 ~ 
对 外 服务 三 大 核心 业务 ， 它 们 是 整个 价值 链 优 化 的 基 
础 ， 如 图 4-22 所 示 。 

。 数据 采集 

数据 采集 主要 是 建立 稳定 、 高 效 的 数据 传输 链 路 。 
建立 数据 采集 的 应 急 调整 机 制 和 监控 调度 机 制 。 

e 产品 加 工 

产品 加 工 加 强 对 数据 产品 加 工 能 力 的 预测 ， 尽 量 
减少 因为 数据 加 工 的 问题 而 造成 的 对 外 服务 的 影响 。 

。 对 外 服务 

对 外 服务 将 市 场 需求 预测 作为 对 外 服务 策略 的 重 图 4-22 三 大 核心 业务 
要 依据 ， 提 高 服务 的 准确 性 ， 按 照 服务 水 平 信息 ， 优 化 采集 、 加 工 、 服 务 环节 ，。 

3) 整合 业务 流程 ， 加 强 信息 系统 支撑 ， 尽 量 减少 手工 干预 工作 ， 提 高 自动 化 程度 和 系 
统 的 总 体 处 理 效率 。 

4) 明确 划分 数据 管理 阶段 ， 同 时 加 强 数据 质量 、 查 询 匹配 、 数 据 整合 等 关键 环节 能 
力 ， 打 造 核心 竞争 力 。 数 据 处 理工 作 包 括 数据 获取 和 整合 、 数 据 存储 、 对 外 信息 服务 三 个 阶 
段 ， 质量 管理 、 查 询 匹配 、 数 据 整合 等 组 件 作为 核心 竞争 能 

5) 从 数据 采集 、 产 品 加 工 到 对 外 服务 的 全 程 数 据 质量 管理 ， 优 化 关键 质量 管理 策略 ， 
并 提供 数据 质量 、 数 据 整合 、 测 试 等 工具 和 组 件 作为 公共 基础 组 件 。 

一 般 做 法 是 将 数据 质量 工作 前 移 ， 在 和 人 库 前 保证 数据 质量 。 可 以 采用 抽样 统计 与 逐条 数 
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据 校 验 相 结合 的 校 验方 式 ， 通 过 数据 抽样 和 统计 的 方法 ， 规 避 系 统 性 数据 错误 ， 统 计 历 史记 
录 ， 作 为 制定 数据 质量 提升 打上 略 的 依据 。 同 时 ， 将 手工 质量 管控 工作 与 信息 系统 相 结合 ， 通 
过 相关 管理 机 构 进 行 质量 检查 和 质量 统 效 管理 ， 提 高 数据 质量 。 

6) 建立 数据 质量 管理 机 制 ， 确 保 数 据 质 量 达 到 “适用 ”的 要 求 ， 并 且 是 “可 管理 的 ”， 
确保 数据 市 来 更 大 的 社会 和 商业 价值 。 

查看 数据 质量 管理 方面 手段 是 否 单一 ， 建 立 数据 质量 跟踪 和 反馈 机 制 ， 明 确 相 关 环 节 音 
门 的 权限 和 职责 。 和 定义 数据 质量 ， 并 明确 各 阶段 数据 质量 管理 要 点 ， 量 化 管理 并 制定 相应 激 
励 措施 。 


4.7 时 金融 行业 数据 架构 案例 朱 述 




















下 面 分 析 某 金融 行业 数据 染 构 相关 案例 ， 如 图 4-23 所 示 。 
数据 源 内 容 管理 数据 交换 平台 数据 临时 区 数据 加 工区 应 用 
| | | 
3 : 1 句 浅 扩 
实时 / 批量 方式 加 | 三- 一 


抽取 /订阅 | 基础 数据 > 


分 析 类 应 用 


数据 加 载 /发布 
数据 质量 
公共 数据 转换 


图 4-23 某 金 融 行 业 数 据 架构 相关 案例 


对 于 该 数据 淋 构 ， 我 们 详细 了 解 一 下 加 载 库 、 基 础 数据 、 主 数据 、 数 据 人 仓库、 数据 交换 
平 侣 、 产 品 加 工 流程 、 数 据 以 构 实 施 规划 和 系统 切换 规划 等 内 容 。 


4.7.1 加 载 库 


加 载 库 可 以 作为 系统 的 数据 质量 控制 中 心 ， 是 合格 数据 进入 到 系统 的 唯一 途径 。 加 载 库 
可 以 分 成 数据 绥 冲 区 和 数据 加 载 区 。 

缓冲 区 的 目的 是 为 了 数据 交换 而 设 定 的 临时 存储 区 ， 加 载 区 是 存储 贴 数据 源 的 数据 ， 一 
般 只 存储 上 一 期 的 数据 ， 为 后 续 的 逻辑 校 验 做 准备 。 

绥 冲 区 数据 和 加 载 区 数据 关联 进行 逻辑 校 验 ， 如 图 4-24 所 示 。 

绥 冲 区 的 数据 冯 和 完 经 过 格式 校 验 ， 校 验 通过 后 再 和 加 载 区 数据 关联 进行 逻辑 校 验 ， 校 验 
者 通过 的 数据 存储 到 基础 数据 库 中 ， 如 网 4-25 所 示 。 
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管理 分 析 
类 应 用 


非 结构 化 数据 。 
z 数据 仓库 



























缓冲 区 数据 加 载 区 数据 


加 载 库 





图 4-24 关联 进行 逻辑 校 验 


基础 数据 库 
加 载 库 


缓冲 区 数据 | | 加 载 区 数据 


格式 、 关 联 逻辑 校 验 
图 4-25 格式、 关联 逻辑 校 验 

一 般 来 说 ， 数 据 加 和 载 区 只 存储 最 近 一 期 数据 ， 如 果 是 新 增 数据 ， 则 直接 插入 到 加 载 区 
中 ， 如 果 是 更 新 数据 ， 则 直接 替换 掉 加 载 区 上 期 的 数据 。 最 后 ， 定 时 地 将 批量 数据 加 载 进 基 
础 数据 库 中 。 
4.7.2 基础 数据 

基础 数据 是 系统 唯一 可 信 的 数据 源 ， 它 主要 存储 校 验 通 过 的 数据 ， 同 时 也 可 以 存储 非 结 
构 化 数据 结构 化 的 内 容 。 存 储 的 期 限 可 以 根据 业务 需求 去 制定 。 基 础 数据 库 的 数据 可 以 到 碍 
询 库 、 主 数据 和 数据 仓库 中 ， 如 图 4-26 所 示 。 


加 载 








> 





基础 数据 库 





图 4-26 ”基础 数据 
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4.7.3 主 数据 


主 数据 在 整个 数据 架构 的 作用 束 是 对 号 份 信息 的 识别 和 归并 ， 基 于 业务 规则 的 识别 、 合 
并 和 和 窗 盖 原则 ， 实 现 号 份 信息 的 唯一 识别 ， 同 时 增强 信息 的 可 信 度 。 

号 份 信息 可 以 使 用 唯一 号 码 进行 标识 。 然 后 将 加 工 数 据 统一 后 ， 再 对 其 他 数据 库 供 数 。 
如 图 4-27 所 示 ， 主 数据 将 加 工 后 的 号 份 信息 批量 同步 到 查询 类 应 用 、 数 据 仓 库 中 。 








增 量 文件 





身份 数据 信息 整合 、 身 份 
信息 识别 归并 、 挖 气 分 析 











数据 仓库 
整合 || 库 内 
数据 层 || 集 市 层 
图 4-27 主 数 据 


主 数据 相关 技术 包括 主体 数据 的 识别 、 主 体 数据 的 整合 、 主 体 数 据 的 归并 和 主体 数据 天 
系 的 挖掘 ， 如 图 4-28 所 示 。 





. 
主体 数据 的 识别 


zx 


主体 数据 的 归并 2 二 条 数 所 关系 





图 4-28 主 数 据 相 关 技 术 
下 面 对 主 数据 相关 技术 进行 详细 描述 
(1) 主 数据 的 识别 
可 以 灵活 地 定义 主体 识别 规则 。 例 如 ， 通 过 个 人 姓名 、 证 件 类 型 和 证 件 号 码 识别 个 人 号 
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份 。 如 果 识 别 规则 复 傈 ， 则 匹配 效率 低 。 然 而 ， 如 末 识 别 规则 过 于 简单 ， 则 会 导致 匹配 精度 
不 高 。 
(2) 主 数据 的 整合 
主 数据 的 整合 是 对 信息 唯一 人 码 的 分 配 ， 在 主体 识别 的 基础 上 ， 对 新 增 主 体 信息 分 配 唯 一 
码 ， 主 体 唯一 人 码 与 原 码 比较 后 ,分配 唯 一 码 ， 并 且 建 立 唯 一 人 码 与 原 码 的 关系 。 
(3) 主 数据 的 归并 
主 数据 可 以 灵活 定义 归并 规则 ， 但 首先 应 该 定位 主体 信息 疑似 名 单 ， 进 行 疑 似 客户 的 确 
认 。 可 能 需要 业务 人 员 的 确认 。 
(4) 主 数据 关系 的 挖 气 
例如 ， 主 数据 关系 的 挖掘 可 以 包括 个 人 与 个 人 关系 的 挖掘 、 企 业 与 企业 关系 的 挖掘 、 个 
人 与 企业 关系 的 挖 气 等 内 容 。 


4.7.4 数据 仓库 


数据 仓库 整合 系统 的 全 局 信息 ， 包 括 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 。 数 据 仓 库 
中 的 数据 包含 历史 数据 ， 它 记录 了 系统 从 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 信息 。 

一 般 来 说 ， 数 据 仓库 不 进行 删除 操作 ，” 顺 
通过 这 些 历 史 信息 ， 可 以 对 企业 的 发 展 历程 二- 
和 未 来 趋势 做 出 定量 分 析 和 预测 。 

数据 仓库 的 数据 来 源 是 基础 数据 库 、 查 。 一 
询 库 和 主 数据 中 的 数据 , 如 图 4-29 所 示 。 ”又 

一 般 来 说 ， 数 据 仓库 的 数据 存储 粒度 较 。“ 主 数据 
细 ， 存 储 时 间 周 期 较 长 ， 基 础 展 、 汇 总 层 和 
集 市 层 之 间 的 数据 交换 可 以 通过 数据 交换 层 。” 中 
完成 。 集 市 中 的 数据 主要 是 统计 性 的 ， 对 明 ~ 


基础 数据 库 
细 数 据 保 存 较 少 。 
图 4-29 数据 仓库 的 数据 来 源 
4.7.5 数据 交换 平台 


数据 交换 平台 包括 外 部 交换 和 内 部 交换 两 个 部 分 ， 如 图 4-30 所 示 。 
@ © 
| | 














数据 仓库 


汇总 时 
数据 层 z 








图 4-30 数据 交换 平台 


外 部 交换 : 通过 交换 平台 将 外 部 文件 数据 加 载 进 内 部 系统 。 
内 部 交换 : 是 指 系统 内 各 个 数据 库 之 间 的 数据 交换 。 
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例如 : 

1) 校 验 通过 后 的 数据 通过 数据 交换 层 到 基础 数据 库 中 。 

2) 基础 数据 通过 数据 交换 层 到 查询 库 、 主 数据 、 数 据 仓 库 中 。 

3) 查询 库 的 产品 数据 通过 数据 交换 层 到 数据 仓库 中 。 

4) 主 数 据 库 加 工 后 的 号 份 数 据 通过 数据 交换 层 到 数据 仓库 中 。 

5) 非 结构 化 数据 的 元 数据 信息 通过 数据 交换 层 到 基础 数据 库 中 。 

6) 数据 仓库 加 工 后 的 结果 数据 通过 数据 交换 层 到 分 析 类 应 用 中 。 

数据 交换 平台 的 功能 包括 数据 抽取 、 质 量 检查 、 数 据 转 换 和 数据 加 载 ， 如 图 4-31 
所 示 。 


~ 


数据 交换 平台 - : 





图 4-31 数据 交换 平台 的 功能 


。 数据 抽取 功能 

数据 抽取 功能 是 从 数据 源 层 获取 原始 数据 ， 可 以 准 实时 或 者 实时 地 获取 源 系 统 的 增 量 或 
者 全 量 数据 。 抽 取 的 范围 是 结构 化 或 者 非 结构 化 数据 。 

。 质量 检查 功能 

质量 检查 是 数据 交换 层 的 重要 工作 ， 经 过 数据 质量 的 检查 ， 生 成 满足 质量 要 求 的 数据 
文件 。 

。 数据 转换 功能 

数据 转换 是 对 通过 质量 检查 的 数据 进行 转换 ， 然 后 加 载 到 数据 库 中 ， 可 以 按照 业务 或 者 
技术 规则 进行 转换 。 

® 数据 加 载 功能 

创建 可 导入 的 文件 ， 通 过 工具 将 数据 批量 导入 到 数据 库 中 。 


4.7.6 产品 加 工 流程 


为 了 提高 产品 加 工 的 允 率 ， 可 以 支持 加 工 的 并 行 处 理 。 在 目标 数据 架构 中 ， 产 品 的 加 工 
流程 包括 对 查询 类 产品 的 加 工 、 管 理 类 产品 的 加 工 和 挖掘 分 析 类 产品 的 加 工 。 
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产品 的 加 工 流程 如 图 4-32 所 示 ， 详 细 介 绍 如 下 。 


增 量 数据 文件 


增 量 数据 文件 数据 
pa 











增 量 数据 文件 


增 量 数据 司 增 量 
文件 数据 司 吃 理 类 分 相 


数据 仓库 “文人 必用 时 


让 基础 || 整合 | 库 内 性 ， 
有 数据 屋 | 数据 屋 || 集 市 层 
图 4-32 产品 的 加 工 流程 


1) 在 加 载 库 中 进行 数据 质量 校 验 ， 包 括 格式 及 逻辑 校 验 。 

2) 基础 数据 导出 增 量 数据 文件 ， 然 后 进行 增 量 数据 的 迁移 。 

3) 对 主 数据 信息 进行 加 工 。 例 如 ， 对 基本 里 份 信息 的 整合 、 唯 一 码 的 分 配 、 疑 似 主体 
言 奶 的 识别 等 内 容 。 

4) 对 数据 仓库 的 数据 进行 加 工 ， 生 成 各 种 分 析 类 产品 。 

5) 对 查询 库 的 数据 进行 加 工 ， 生 成 查询 类 应 用 产品 。 

6) 最 后 ， 对 产品 数据 的 加 工 结果 进行 迁移 。 


4.7.7 数据 碟 构 实施 规划 


系统 建设 策略 

关于 系统 建设 策略 ， 前 文 已 经 介绍 过 ， 主 要 包括 统一 开发 和 推广 、 快 速 建设 方式 。 

我 们 总 结 一 下 ; 项 目 最 好 的 建设 方式 是 抓 住 
项 目的 核心 应 用 ， 对 重要 核心 的 需求 形成 快速 突 
破 。 然 后 在 统一 规划 的 基础 上 建设 基础 平台 ， 统 
一 开发 和 推广 的 建设 方式 和 快速 建设 方式 相 结 合 ， 
大 大 缩减 了 项 目 建设 周期 。 因 此 ， 可 以 将 整个 项 
目 划 分 成 三 个 阶段 ， 包 括 : 系统 建设 、 应 用 推广 、 
业务 提升 ， 如 图 4-33 所 示 。 

(1) 第 一 阶段 : 系统 建设 

芝 循 需求 和 总 体 染 构 设 计 的 要 求 ， 完 成 核心 
应 用 的 开发 ， 同 时 搭建 软 便 件 基础 平台 。 例 如 ， 














第 一 阶段 : 系统 建设 











图 4-33 项目 划 分 的 阶段 
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在 项 目 开始 阶段 ， 首 先 建设 基础 设施 、 容 灾 系 统 、 数 据 采 集 系 统 、 数 据 处 理 系统 、 产 品 加 工 
系统 、 对 外 服务 系统 。 然 后 ， 在 此 基础 上 可 以 建立 客户 服务 系统 、 数 据 质 量 管理 系统 、 管 理 
分 析 系 统 等 。 

(2) 第 二 阶段 : 应 用 推广 

选择 试点 ， 试 运行 系统 ， 然 后 按照 推广 计划 ， 逐 步 推广 第 一 阶段 建设 的 核心 系统 。 例 
如 ， 在 此 阶段 可 以 建立 基础 设施 建设 二 期 、 数 据 采集 系统 二 期 、 产 品 加 工 系统 二 期 、 容 灾 系 
统 建 设 二 期 、 对 外 服务 系统 二 期 、 数 据 仓库 等 ， 同 时 应 该 统一 管理 和 实施 。 

(3) 第 三 阶段 ,业务 提升 

主要 配合 业务 运营 ， 优 化 系统 。 在 总 体 架构 的 基础 上 ， 完 成 新 增 需 求 和 应 用 的 建设 。 同 
时 可 以 拓展 系统 的 数据 采集 、 服 务 对 象 和 产品 的 范 轩 。 

在 项 目 建设 时 ， 也 需要 考虑 可 能 存在 的 风险 ， 如 组 织 风险 、 业 务 变 化 风险 、 技 术 风 险 和 
管理 风险 等 。 





稳定 过 渡 的 原则 





4.7.8 系统 切换 规划 案例 “人 小 系统 推广 和 切换 需要 保证 稳定 过 滤 
系统 切换 规划 的 原则 ， 如 图 4-34 所 示 。 
as 系统 影响 最 低 原则 
(1) 稳定 过 渡 的 原则 沁 尽 可 能 减 小 对 原 有 系统 的 影响 
系统 推广 和 切换 需要 保证 稳定 过 渡 。 
a 1 在 由 痪 名 各 中 不 能 对 正常 业务 造成 任何 影响 
i ee 全 竺 切换 过 程 中 ， 不 能 对 正常 业务 造成 任何 影响 
尺 可 能 减 小 对 原 有 系统 的 有 影响。 © | 


(3) 风险 最 小 原则 

在 切换 过 程 中 ， 不 能 对 正常 业务 造成 任何 RO 0 
影响 。 

下 面 对 系 统 切换 方案 进行 详细 描述 。 

方案 一 概述 

新 系统 可 以 不 支持 一 代数 据 采 集 接口 和 查询 服务 接口 。 此 方案 使 得 未 切换 源 系 统 的 数据 
采集 只 能 在 旧 系 统 中 完成 。 对 于 数据 采集 ， 只 能 在 旧 系 统 和 新 系统 中 同时 进行 ， 为 了 保证 数 
据 的 一 致 性 ， 需 要 对 新 旧 系统 的 数据 进行 双向 同步 ， 直 到 新 系统 推广 完成 ， 旧 系统 始终 需要 
并 行 ， 当 切换 完成 之 后 ， 旧 系统 才 可 下 线 。 

对 于 源 系统 数据 采集 端 ， 需 要 逐步 完成 新 旧 切 换 ， 这 种 方式 对 于 双向 增 量 同步 实现 难度 
很 大 ， 第 一 次 新 旧 系 统 切换 是 将 数据 采集 服务 随 着 新 系统 投产 而 启用 ， 查 询 服务 依旧 使 用 旧 
系统 ; 第 二 次 新 旧 系 统 切换 是 将 查询 服务 从 旧 系 统 切换 到 新 系统 。 

总 结 

新 系统 不 支持 旧 系统 的 查询 接口 ， 在 新 系统 的 查询 服务 启动 之 前 ， 查 询 服务 都 在 旧 系 统 
进行 。 在 新 系统 全 部 完成 切换 之 后 ， 查 询 服务 从 旧 系 统 切换 到 新 系统 。 

方案 一 的 工作 主要 是 对 新 系统 的 接口 开发 和 测试 工作 ， 旧 系统 不 需要 进行 额外 的 接口 开 
发 和 测试 。 为 了 不 停止 对 外 的 查询 服务 ， 旧 系统 必须 保持 全 量 的 数据 ， 会 一 直 并 行 到 新 系统 
全 部 完成 切换 为 止 。 最 难 的 工作 和 技术 就 是 对 新 旧 系 统 的 数据 库 双向 同步 。 

方案 一 的 工作 流程 如 图 4-35 所 示 。 


















































$80 


定 长 的 TXT 文件 


一 代 旧 系统 
未 切换 的 数据 源 系统 


新 旧 系统 数据 库 双 向 同步 | 
XML 文 件 


已 切换 的 数据 源 系 统 
二 代 新 系统 


图 4-35 方案 一 的 工作 流程 
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| 新 示 统 在 询 服务 






方案 二 概述 

方案 二 是 在 方案 一 的 基础 上 修改 的 ， 重点 在 于 对 查询 服务 接口 的 修改 。 新 系统 不 支持 旧 
系统 的 数据 采集 接口 ， 但 是 支持 对 旧 系 统 的 查询 服务 接口 。 新 系统 的 数据 采集 和 对 外 服务 一 
次 性 进行 切换 ， 未 切换 的 数据 在 旧 系 统 中 进行 采集 ， 已 切换 的 数据 在 新 系统 中 进行 采集 。 查 
询 服 务 支持 旧 系 统 ， 同 时 也 支持 新 系统 。 当 新 系统 推广 完成 之 后 ， 旧 系统 可 以 下 线 。 需 要 保 
证 新 系统 是 全 量 数据 。 方 案 二 的 工作 流程 如 图 4-36 所 示 。 


定 长 的 TXT 文 件 
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图 4-36 方案 二 的 工作 流程 
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方案 三 概述 

方案 三 与 方案 一 类 似 ， 新 系统 和 旧 系 统 互相 文 村 对方 的 数据 采集 接口 ， 但 是 新 系统 不 文 
持 旧 系统 的 查询 服务 接口 。 

当 首 次 切换 时 ， 查 询 服务 使 用 旧 系 统 ， 随 着 切换 的 慢 慢 推广 ， 一 二 到 完成 ， 新 系统 的 查 
询 服务 正式 使 用 。 新 旧 系统 会 一 二 并行 ， 直 到 上 线 完 成 之 后 。 最 大 的 难点 是 对 数据 一 致 性 的 
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校 验 。 方 案 三 的 工作 流程 如 图 4-37 所 示 。 


定 长 的 TXT 文件 


要 


未 切换 的 数据 源 系统 












一 代 旧 系统 | 国 且 有 》》 | 日系 统 查询 服务 
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XML 文件 
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图 4-37 方案 三 的 工作 流程 
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已 切换 的 数据 源 系 统 
二 代 新 系统 


方案 四 概述 

方案 四 与 方案 二 类 似 ， 新 系统 和 旧 系 统 互 相 支 持 对 方 的 数据 采集 ， 新 系统 支持 对 旧 系 统 
的 查询 服务 接口 。 采 集 数 据 增 量 双向 加 载 ， 并 行 至 推广 完成 。 难 点 是 对 数据 一 致 性 的 校 验 。 
方案 四 的 工作 流程 如 图 4-38 所 示 。 
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新 旧 系 统 数据 库 双向 同步 
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XML 文件 


图 4-38 方案 四 的 工作 流程 


方案 五 概述 

新 系统 支持 旧 系 统 的 数据 采集 接口 ， 但 是 不 支持 旧 系 统 的 查询 服务 接口 。 对 于 投产 切 
换 ， 数 据 采 集 与 查询 服务 可 以 分 成 两 次 切换 ， 切换 完 成 后 ， 全 部 的 数据 在 新 系统 中 进行 采 
集 。 查 询 服务 在 推广 完成 之 后 再 切换 到 新 系统 中 。 新 旧 系 统 会 一 下 并 行 ， 直 到 推广 结束 。 此 
方案 要 求 新 系统 保持 全 量 数据 。 方 案 五 的 工作 流程 如 图 4-39 所 示 。 
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图 4-39 方案 五 的 工作 流程 
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已 切换 的 数据 源 系 统 





方案 六 概述 

新 系统 文 持 旧 系统 的 数据 采集 接口 、 查 询 服 务 接口 。 新 系统 对 外 服务 一 次 性 切换 完成 。 
在 切换 稳定 后 ， 旧 系统 可 以 选择 下 线 。 此 方案 要 求 旧 系统 保持 全 量 数 据 。 方 和 案 六 的 工作 流程 
如 图 4-40 所 示 。 
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图 4-40 方案 六 的 工作 流程 






| 







已 切换 的 数据 源 系 统 
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方案 七 概述 

新 系统 文 持 旧 系统 数据 采集 接口 、 碍 询 服 务 接口 。 新 系统 一 次 性 切换 全 部 的 数据 采集 和 
查询 服务 接口 ， 然 后 逐步 推广 。 新 系统 文 持 旧 系 统 的 数据 采集 与 服务 接口 ， 服 务 一 次 性 切 
换 ， 无 须 新 老 系统 并 行 。 方 案 七 的 工作 流程 如 图 4-41 所 示 。 

但 是 方案 七 需要 验证 新 系统 采集 旧 数 据 的 能 力 ， 包 括 : 验证 新 系统 对 旧 系 统 数据 采集 接 
口 的 支持 能 力 和 验证 新 系统 对 旧 系 统 查 询 服务 接口 的 支持 能 力 ， 如 图 4-42 所 示 。 

方案 八 概述 

新 系统 不 文 持 旧 系统 数据 采集 接口 、 查 询 服务 接口 。 新 系统 数据 采集 与 查询 服务 一 次 投 
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图 4-41 方案 七 的 工作 流程 









ms 支持 旧 系 统 的 


查询 服务 


一 代 旧 系统 


i 
己 


数据 产 系 统 


验证 新 系统 对 旧 系 统 数据 采集 接口 的 支持 能 力 


支持 新 、 旧 系 
办 | 节 站 在 光 服务 


验证 新 系统 对 旧 系 统 查 询 服务 接口 的 支持 能 力 
图 4-42 方案 七 的 验证 工作 
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产 切换 ， 新 系统 与 日 系统 会 一 直 并 行 ， 直 到 推广 结束 ， 旧 系统 才 可 以 择机 下 线 。 方 案 八 的 工 
作 流 程 如 图 4-43 所 示 。 


定 长 的 TXT 文件 


目 


已 切换 的 数据 源 系 统 


一 代 旧 系统 | 国 瞧 | 日系 统 查 询 服务 
新 旧 系 统 数据 库 双向 同步 


已 切换 的 数据 源 系统 一 代 新 系统 | 国 瞧 | 新 系统 查询 服务 





未 切换 的 数据 产 系 统 





XML 文件 


图 4-43 方案 八 的 工作 流程 
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新 旧 系 统 数据 迁移 的 问题 : 

(1) 分 析 新 系统 需要 补 录 哪些 数据 

在 新 系统 中 ， 分 析 数 据 采 集 接 口 比 旧 系 统 采 集 接 口 增 加 了 哪些 内 容 ， 有 哪些 历史 数据 可 
以 补 录 到 新 系统 中 。 在 新 旧 系 统 切换 的 时 候 ， 需 要 将 历史 数据 一 次 性 地 提交 到 新 系统 的 数据 
库 中 。 也 可 以 在 系统 切换 前 ， 提 前 将 历史 数据 补 录 到 新 系统 中 。 

(2) 制定 海量 数据 的 迁移 方案 

第 一 种 方式 : 使 用 数据 迁移 程序 进行 迁移 ， 如 图 4-44 所 示 。 首 先 将 源 数 据 导 出 成 原始 
数据 文件 ; 经 加 工 后 成 为 中 间 数 据 文 件 ; 然后 将 文件 直接 导入 生产 数据 库 中 。 


原始 数据 文件 中 间 数 据 文件 


程序 导出 数据 加 工 : 
一 一 一 | 一 医 … 司 


图 4-44 海量 数据 迁移 的 第 一 种 方式 


对 于 海量 数据 的 迁移 时 间 需 要 进行 测试 和 验证 。 
第 二 种 方式 : 使 用 数据 迁移 程序 和 中 间 库 ， 如 图 4-45 所 示 。 可 以 采用 中 间 库 ， 如 采 数 
据 迁 移 时 间 超 出 投产 时 间 窗 口 ， 考 虑 分 批 导 入 的 方式 。 
原始 数据 文件 中 间 数 据 文件 


国 程序 导出 数据 加 工 
-~ 一 | 一 bb 
Bd 


图 4-45 海量 数据 迁移 的 第 二 种 方式 











小 结 


。 一 般 来 说 ,项目 阶段 分 成 以 下 儿 个 部 分 : 项 目 局 动 阶段 ， 现 状 评 优 、 高 阶 需求 分 析 阶 
段 、 染 构 设 计 和 规划 阶段 以 及 实施 规划 和 运 维 阶段 。 

。 在 系统 总 体 规划 过 程 中 ， 主 要 包含 三 个 过 程 : 现状 分 析 和 需求 分 析 阶 段 、 总 体 规划 设 
计 阶 段 和 总 体 架 构 实施 规划 阶段 。 

。 系统 建设 策略 主要 包含 以 下 几 种 方式 : 统一 开发 、 统 一 推广 ， 快 速 建设 方式 。 

。 项 目 阶段 的 建设 计划 主要 包含 以 下 几 个 方面 : 项 目 启 动 、 需 求 分 析 、 系 统 设 计 、 开 发 
和 测试 以 及 项 目 验收 等 。 

。 预算 主要 包含 两 个 方面 的 内 容 : 一 是 对 便 件 、 软 件 平 合 、 应 用 软件 和 各 种 服务 的 投资 
和 维护 的 费用 估算 ,二 是 对 人 工 服 务 费 用 的 估算 。 
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e 针对 某 金 融 行业 信息 化 建设 ， 可 以 分 成 以 下 几 个 任务 : 

(1 ) 信息 采集 任务 

信息 采集 任务 主要 是 充实 采集 内 容 ， 优 化 采集 方式 ， 根 据 业 务 需 求 ， 动 态 地 增加 采集 信 
息 。 例 如 ， 在 个 人 欠 款 信息 中 增加 欠 款 发 生 的 日 期 。 同 时 需要 扩大 对 公共 信息 的 采集 ， 包 括 
各 种 的 税务 信息 、 司 法 信息 和 电信 信息 等 。 

(2) 数据 处 理 和 加 工 任务 

数据 处 理 和 加 工 任务 是 建立 数据 处 理 和 快速 加 工 啊 应 机 制 ， 能 够 将 各 种 新 业务 快速 纳入 
到 系统 中 ， 提 高 数据 的 自动 化 处 理 和 快速 加 载 能 

例如 ， 可 以 将 客户 的 信用 评分 能 力 、 身 份 验证 、 关 联 查询 、 风 险 预 警 和 各 种 的 数据 统计 
功能 快速 接 和 到 系统 中 。 























(3) 应 用 
应 用 是 建立 多 样 化 的 产品 交付 方式 ， 如 离线 交付 、 专 网 交付 等 ， 尽 量 做 到 7 x24 对 外 
服务 。 


® 数据 分 布 主要 包括 数据 业务 分 布 和 数据 系统 分 布 。 数 据 分 布 可 以 分 析 数 据 业 务 和 业务 
各 个 环节 的 创建 、 修 改 和 删除 关系 ， 同 时 可 以 分 析 数 据 在 应 用 系统 中 的 数据 结构 和 应 
用 系统 各 个 模块 之 间 的 关系 。 

e 在 规划 数据 分 布 时 ， 需 要 考虑 合适 的 技术 方案 来 满足 以 下 需求 : 

1) 明确 不 同位 置 之 间 的 数据 定位 和 数据 流 问 。 

2) 保证 对 海量 数据 的 快速 加 载 和 不 同 数据 库 之 间 数 据 的 快速 增 量 迁移 。 

3) 保证 海量 数据 的 快速 产品 加 工 。 

4) 应 该 适应 数据 采集 的 多 样 化 、 产 品 加 工 的 多 样 化 和 对 外 服务 配置 化 等 特点 。 

5) 可 以 适应 数据 的 纠 销 更 新 机 制 。 

® 对 于 数据 架构 的 流转 来 说 ， 主 要 是 降低 数据 元 余 度 、 提 高 数据 一 致 性 ， 进 而 达到 有 灵 
活 、 高 效 的 目的 。 

e 某 金 融 行 业 系统 的 纠 错 更 正 需 求 主要 包括 基础 数据 的 数据 纠 错 更 正 需 求 、 查 询 库 的 数 
据 纠 错 更 正 需 求 、 主 数据 的 数据 纠 错 更 正 震 求 和 数据 仓库 的 数据 纠 错 更 正 需求 。 

® 基础 数据 可 以 作为 唯一 可 信 数 据 源 ， 在 基础 数据 做 的 任何 修改 也 都 会 通过 增 量 的 方式 

同步 到 数据 加 工区 中 进行 加 工 ， 然 后 在 应 用 层 得 到 体现 ， 因 此 ， 尽 量 在 基础 数据 中 进 

行 纠 错 更 正 ， 这 样 有 利于 数据 的 一 致 性 。 但 是 为 了 更 好 地 控制 数据 ， 应 该 严格 管理 数 

据 纠 错 更 正 的 权限 ， 所 有 的 动作 部 应 该 被 记录 ， 以 备 后续 查 询 使 用 。 

对 于 碍 询 库 的 数据 纠 错 更 正 需 求 ， 一 般 是 发 生 在 客户 提出 卉 议 申 请 之 后 ， 经 过 系统 确 

认 是 否 是 数据 谣 存 在 错误 ， 由 源 系 统 在 目 己 系统 上 经 过 检查 ， 确 认 是 数据 错误 之 后 ， 

登录 到 本 系统 进行 数据 纠正 。 

主 数据 主要 包含 号 份 整合 信息 ， 针 对 不 同 的 信息 采用 不 同 的 整合 方式 ， 一 般 和 都 直接 在 

主 数据 中 修改 信息 。 

对 于 系统 的 在 线 纠 错 更 正 ， 需 要 保证 数据 的 一 致 性 和 完整 性 。 在 线 纠 错 更 正 的 请 求 应 

该 尺 可 能 发 生 在 基础 数据 库 中 ， 因 为 当 更 新 完 基 础 数据 后 ， 表 通过 特殊 的 数据 加 工 迁 

移 到 主 数 据 、 数 据 仓 库 和 查询 库 中 。 对 于 已 经 加 工 完 成 的 数据 进行 在 线 纠 错 更 正 ， 如 

末 无 法 通过 修改 基础 数据 中 的 数据 来 实现 在 线 纠 错 ， 只 能 考虑 在 加 工区 中 修改 数据 。 
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对 于 所 有 的 在 线 纠 错 更 正 相 关 操 作 ， 必 须 保留 痕迹 ， 从 而 保证 数据 的 可 追溯 性 。 

e 当 客 户 提 交 在 线 纠 错 更 正 请 求 后 ， 将 更 新 基础 数据 库 、 数 据 仓 库 、 主 数据 和 查询 库 中 

对 应 的 数据 。 同 时 记录 数据 变化 的 情况 ， 从 而 确保 数据 的 可 追溯 性 。 

e 为 了 提高 产品 加 工 的 效率 ， 可 以 支持 加 工 的 并 行 处 理 。 

e。 数据 仓库 整合 系统 的 全 局 信息 ， 包 括 基 础 层 、 汇 总 层 和 集 市 层 。 数 据 仓 库 中 的 数据 包 

含 历史 数据 ， 它 记录 了 系统 从 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 信息 ， 一 般 来 说 ， 数 

据 仓库 不 做 删除 操作 ， 通 过 这 些 历 史 信 息 ， 可 以 对 企业 的 发 展 历程 和 未 来 趋势 做 出 定 

量 分 析 和 预测 。 

e 数据 交换 平台 包括 外 部 交换 和 内 部 交换 两 个 部 分 。 外 部 交换 是 指 通过 交换 平台 将 外 部 

文件 数据 加 载 进 内 部 系统 。 内 部 交换 是 指 系统 内 各 个 数据 库 之 间 的 数据 交换 。 

e 某 金 融 行 业 数据 架构 的 优化 主要 包含 以 下 几 个 方面 : 

1) 优化 数据 采集 策略 。 

2) 将 数据 采集 、 数 据 加 工 和 对 外 服务 统一 考虑 。 

3) 整合 业务 流程 ， 加 强 信息 系统 支撑 ， 尺 量 减少 手工 干预 工作 ， 提 高 自动 化 程度 和 系 
统 的 总 体 处 理 效 率 。 

4) 明确 划分 数据 管理 阶段 ， 同 时 加 强 数据 质量 、 查 询 匹 配 、 数 据 整合 等 关键 环节 能 
力 ， 打 造 核心 竞争 力 。 

5) 从 数据 采集 、 产 品 加 工 到 对 外 服务 的 全 程 数 据 质 量 管理 ， 优 化 关键 质量 管理 策略 ， 
并 提供 数据 质量 、 数 据 整合 、 测 试 等 工具 和 组 件 作 为 公共 基础 组 件 。 

6) 建立 数据 质量 管理 机 制 ， 确 保 数据 质量 达到 “适用 ”的 要 求 ， 并 且 是 “可 管理 的 ”， 
确保 数据 带 来 更 大 的 社会 和 商业 价值 。 

。 随 着 大 数据 时 代 的 到 来 ， 数 据 应 用 可 以 产生 更 大 的 机 遇 和 挑战 。 只 有 更 好 地 利用 数 

据 ， 才 能 在 未 来 的 竞争 中 获得 更 大 的 优势 。 一 般 来 说 ， 数 据 的 应 用 主要 包括 : 报表 功 

能 、 统 计 分 析 和 数据 挖掘 三 种 方式 。 

(1) 报表 功能 

报表 功能 是 数据 应 用 的 基础 ， 是 较为 传统 和 常见 的 数据 应 用 。 报 表 是 决策 分 析 的 基础 。 
报表 功能 的 完善 、 灵 活 程度 能 够 影响 工作 的 效率 。 

(2) 统计 分 析 功 能 

统计 分 析 功 能 是 常见 的 数据 应 用 方式 。 随 着 统计 分 析 工 具 的 推广 ， 统 计 分 析 在 很 多 行业 
中 得 到 了 越 来 越 广泛 的 应 用 。 例 如 ， 通 过 假设 检验 或 者 方差 分 析 帮 助 分 析 经 济 运行 的 规律 。 

(3) 数据 挖掘 功能 

数据 挖掘 是 数据 统计 分 析 的 进一步 发 展 ， 是 对 数据 的 深度 应 用 。 

数据 挖掘 虽然 起 源 于 20 世纪 70 年代， 但 在 最 近 10 年 内 得 到 了 广泛 应 用 和 发 展 ， 特 别 
是 被 金融 行业 、 互 联网 行业 广泛 使 用 。 
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第 5 革 大 数据 淋 构 与 实践 


本 章 目 标 

通过 前 儿童 的 学 习 ， 我 们 已 经 理解 了 数据 以 构 的 工作 方法 和 指导 原则 ， 同 时 也 了 解 了 人 金 
融 行业 数据 淋 构 的 相关 案例 ， 还 学 习 了 数据 淋 构 的 流转 、 加 工 的 处 理 时 序 、 数 据 纠 错 方 案 介 
绍 、 数 据 染 构 的 优化 和 数据 染 构 实施 规划 等 内 容 。 

但 是 ， 随 春 数 据 采 集 的 范围 不 断 扩 大 ， 一 些 例如 文档 、 视 频 等 半 绪 构 化 和 非 结 构 化 的 数 
据 逐 渐 成 为 主要 的 数据 源 ， 可 以 这 样 说 ，80% 的 数据 可 能 都 来 自 于 非 结构 化 数据 ， 如 图 像 、 
音频 、 微 博 、 网 页 、 电 子 邮 件 等 。 商 业 银 行 一 下 饱 受 着 这 些 大 量 的 非 结构 化 数据 没有 更 好 地 
创造 业务 价值 的 困扰 ， 我 们 可 以 把 大 数据 视 为 挑战 。 

同时 对 于 商业 银行 来 说 ， 大 数据 更 是 机 遇 ， 客 户 在 不 断 与 银行 的 交易 过 程 中 ， 创 造 出 多 
种 形式 的 数据 ， 这 也 为 银行 实时 或 者 准 实时 地 分 析 数 据 提供 了 便利 ， 同 时 可 以 对 客户 进行 针 
对 性 的 萌 销 。 因 此 ， 本 章 我 们 将 重点 介绍 大 数据 。 

学 习 本 章 后 ， 谈 者 将 掌握 : 

e 大 数据 的 建设 背景 

e 大 数据 面临 的 挑战 和 重要 性 

e 大 数据 的 定义 和 特 扣 

e 大 数据 下 的 数据 染 构 

e 大 数据 分 析 平 台 基 础 框 染 

e 大 效 据 技术 如 何 落 地 

。 相关 生产 厂商 大 数据 技术 介绍 

e 大 数据 与 云 计算 

® 大 数据 和 传统 商业 智能 分 析 

。 大 数据 在 金融 行业 的 应 用 

® 大 数据 在 其 他 行业 的 应 用 























5.1 大 数据 概述 


5.1.1 大 数据 的 建设 背景 


“大 数据 的 真实 价值 就 像 漂浮 在 海洋 中 的 冰川 ， 第 一 眼 人 们 往往 只 看 到 冰山 一 角 ， 而 绝 
大 部 分 都 隐藏 在 表面 之 下 ， 数 据 总 是 从 最 不 可 能 的 地 方 被 提取 出 来 。” 这 段 关 于 大 数据 的 精 
彩 论述 来 目 维 克 托 . 迈 尔 - 伟 恩 伯 格 所 著 的 《大 数据 时 代 》 一 书 。 

经 过 许多 年 的 发 展 ， 目 前 的 信息 积累 已 经 到 了 一 个 新 的 阶段 ， 它 比 以 往 有 着 更 多 的 信 
息 ， 数 据 的 增长 速度 也 在 不 断 加 快 。 

据 IBM 公司 预测 ， 到 2020 年 ， 全 世界 产生 的 数据 规模 将 达到 目前 数据 量 的 44 倍 ， 在 这 
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些 数据 中 ， 只 有 1% ~5% 的 数据 是 结构 化 数据 ， 这 意味 春 非 结构 化 数据 和 半 结 构 化 数据 将 
占据 绝 大 部 分 。 因 此 ， 人 们 创造 出 了 大 数据 的 概念 。 

在 理解 大 数据 之 前 ， 育 乞 应 该 理解 什么 是 数据 信息 。 数 据 信息 好 像 是 地 球 上 的 空气 ， 无 
处 不 在 、 四 处 深 移 ， 如 图 5-1 所 示 。 同 时 这 些 信息 又 是 看 不 见 、 措 不 着 、 无 也 不 人 的 。 这 
些 信息 可 以 包括 文字 、 图 像 、 声 首 和 影像 等 。 信 息 实 质 上 是 人 类 思想 外 化 的 一 种 方式 。 











示 
A 


数据 信息 





图 5-1 数据 信息 好 像 是 地 球 上 的 空气 





那么 ， 什 么 是 大 数据 呢 ? 

大 数据 是 指 巨 量 的 信息 ， 规 模 巨 大 ， 已 经 无 法 用 常规 的 软件 工具 在 短 时 间 内 进行 存储 和 
管理 。 大 数据 的 主要 功能 就 是 预测 ， 可 以 将 算法 应 用 到 海量 的 数据 中 ， 预 测 事件 发 生 的 可 能 
性 。 但 是 我 们 不 要 拘泥 于 大 数据 的 概念 。 

目前 来 说 ， 大 数据 多 数 仍然 停留 在 概念 上 ， 真 正大 数据 落地 的 成 功 案例 窒 窗 无 几 。 我 们 
应 该 去 探寻 大 数据 的 真正 内 涵 和 价值 。 如 何 分 析 和 使 用 大 数据 才 是 本 章 的 重点 。 

例如 ， 商 业 银行 拥有 大 量 的 客户 信息 和 交易 信息 ， 特 别 是 客户 在 互联 网 上 的 每 一 次 点 击 
和 评论 ， 都 是 大 数据 的 数据 来 源 。 通 过 对 这 些 数据 的 分 析 ， 洞 悉 客 户 的 湾 在 和 真实 需求 。 实 
质 上 我 们 每 天 都 在 创造 着 海量 的 数据 ， 数 据 在 “包围 ”我 们 ， 我们 正在 进入 “大 数据 ” 
i 

大 数据 包括 什么 数据 呢 ? 

例如 ， 交 通 和 天 气 预 报 的 数据 、 人 们 在 社交 网 络 上 的 信息 、 购 物 信 息 ， 以 及 各 种 视频 、 
音频 、 短 信 等 ， 均 可 视 为 大 数据 。 

一 般 将 2012 年 视 为 大 数据 时 代 的 元 年 。 很 多 行业 经 过 多 年 的 数据 积累 ,已 经 具备 了 利 
用 大 数据 的 挖掘 分 析 创 造价 值 的 能 力 。 对 于 金融 行业 来 说 ， 它 们 每 天 都 处 理 千 万 量 级 的 交易 
数据 ， 在 银行 卡 中 也 保存 了 大 量 的 收入 和 支出 信息 。 进 入 大 数据 时 代 后 ， 如 何 更 好 地 利用 大 
数据 创造 财富 是 不 可 回避 的 话题 。 很 多 银行 可 以 根据 对 客户 的 深入 了 解 ， 为 客户 提供 多 样 化 
和 个 性 化 的 服务 。 同 时 还 可 以 针对 相关 热点 、 各 种 犯罪 行为 进行 预测 。 特 别 是 在 国外 已 经 形 
成 了 多 渠道 的 客户 分 析 、 天 气 预 测 预 警 分 析 和 交通 堵塞 预警 分 析 等 应 用 。 

在 互联 网 上 ， 我 们 每 天 都 会 留 下 大 量 的 浏览 网 页 的 痕迹 。 互 联网 技术 很 像 人 的 神经 系 
统 ， 可 以 通过 感官 获取 信息 。 大 数据 可 以 视 为 人 的 大 脑 中 枢 ， 各 种 信息 集成 到 大 脑 中 枢 ， 然 
后 对 数据 进行 整合 、 集 成 和 挖 气 。 芍 例 来 说 ， 在 社交 网 站 上 ， 记 录 了 我 们 和 朋友 之 间 的 交往 
言 息 。 因 此 ， 我 们 应 该 做 好 对 大 数据 的 管理 和 利用 工作 。 对 于 不 同 的 行业 来 说 ， 大 数据 都 意 
味 着 巨大 的 商业 机 会 ， 它 可 以 帮助 我 们 提高 客户 的 忠诚 度 ， 增 强 客户 的 体验 感 。 所 以 说 ， 对 
于 这 些 数据 的 收集 和 分 析 已 经 成 为 提升 企业 品牌 形象 的 手段 之 一 。 

实质 上 ， 大 数据 在 金融 、 互 联网 的 应 用 非常 广泛 ， 这 些 企业 或 商业 银行 在 日 党 运营 过 程 
中 产生 了 大 量 的 数据 ， 尤 其 在 人 口 众多 的 国家 ， 大 数据 的 应 用 更 为 广泛 ， 通 过 这 种 挖 气 和 利 
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用 大 数据 的 能 力 ， 可 以 大 大 提高 服务 的 水 平 。 其 实 大 数据 为 pe 
市 场 提 供 了 各 种 机 会 , 创造 出 了 巨大 的 商业 价值 。 同 时 大 数 各 志和 

据 可 以 帮助 各 个 企业 找到 适合 自己 的 发 展 模式 和 客户 群体 ， 起 
强化 自身 的 特色 。 人 

传统 的 数据 分 析 思 维 是 要 求 数据 准确 无 误 ， 数 据 关系 清 。 弟 a 
白 。 但 是 大 数据 的 分 析 思 维 是 接受 数据 的 复杂 性 ， 单 个 数据 “可 
的 重要 性 不 高 ， 主 要 关注 事物 之 间 的 关联 关系 。 当 我 们 完成 
对 关联 关系 分 析 之 后 ， 就 可 以 研究 更 深层 次 的 因果 关系 ， 找 
出 背后 的 原因 。 例 如 ， 将 啤酒 和 尿布 摆 放 在 一 起 ， 蛋 乓 和 飓风 用 品 摆 放 在 一 起 ， 通 过 了 解 人 
们 生活 上 的 喜好 ， 分 析 串 某 种 疾病 的 概率 ， 利 用 人 们 的 社交 数据 ， 分 析 个 人 的 偿还 意愿 和 偿 
还 能 力 。 

对 于 商业 银行 来 说 ， 为 了 保证 在 金融 市 场 的 竞争 地 位 ， 将 数据 转化 为 可 以 洞察 的 信息 和 
知识 ， 推 动 业务 的 发 展 ， 提 升 管理 的 效率 。 通 过 大 数据 分 析 平 台 ， 接 人 客户 的 社交 网 络 ， 终 
端 媒介 产生 的 各 种 非 结构 化 数据 ,构建 客户 的 全 方位 视图 ,获取 客户 的 反馈 信息 和 真正 需 
求 ， 才 能 对 银行 产品 进行 合理 的 规划 和 设置 。 

大 数据 分 析 可 以 帮助 银行 内 部 加 强 管理 ， 增 强 透明 度 ， 优 化 各 种 业务 流程 和 工作 效率 。 
提高 银行 系统 交易 的 性 能 ， 减 小 运营 和 管理 的 压力 。 

大 数据 分 析 还 可 以 帮助 银行 了 解 客户 的 风险 信息 ， 建 立 完善 的 风险 管控 体系 。 另外， 可 
以 及 时 地 获取 客户 的 反馈 信息 ， 对 客户 需求 进行 深入 分 析 ， 对 银行 产品 进行 合理 设置 。 同 时 
构建 客户 的 全 方位 视图 。 

例如 ， 根 据 客户 的 偏好 、 年 龄 、 收 入 、 地 域 、 历 史 购 买 水 平 、 兴 趣 广 度 ， 构 建 客户 的 全 
方位 视图， 了 解 客户 最 真实 的 信息 。 在 此 基础 上 ， 对 客户 进行 细 分 和 风险 评估 ， 从 而 进行 有 
针对 性 的 营销 ， 如 图 5_3 所 示 。 
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图 5-3 针对 性 的 介 销 
同时 可 以 制定 云 计 算 、 物 联网 等 规划 ， 特 别 是 云 计 算 、 物 联网 、 社 交 妹 体 为 大 数据 提供 
了 丰 军 的 数据 来 源 。 随 春 移 动 终端 技术 的 应 用 ， 特 别 是 数据 挖掘 技术 的 发 展 ， 已 经 彻 睛 改变 
了 客户 的 消费 模式 。 如 末 从 数据 的 角度 来 看 ， 我 们 其 实 已 经 进入 到 了 大 数据 的 智能 化 时 代 。 
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我 们 总 结 一 下 国内 大 数据 的 建设 背景 : 

国内 大 数据 应 用 的 基本 现状 较为 复杂 ， 目 的 是 为 了 退 求 大 数据 技术 而 进行 各 种 大 数据 项 
目的 建设 ， 这 样 可 能 会 导致 很 多 企业 “ 掉 进 ”以 技术 为 导 辐 的 误区 。 

大 数据 的 项 目 必 须 有 明确 的 业务 需求 ， 用 商业 思维 来 推动 大 数据 的 建设 ， 只 有 这 样 ， 大 
数据 的 价值 才能 充分 体现 出 来 。 


5.1.2 大 数据 面临 的 挑战 和 机 过 


1. 在 大 数据 时 代 ， 我 们 面临 的 挑战 

(1) 企业 或 者 商业 银行 将 数据 的 重要 性 提升 一 个 层次 

首先 要 求 企 业 或 者 商业 银行 将 数据 的 重要 性 提升 一 个 层次 ， 对 于 数据 的 应 用 已 经 不 仅仅 
是 业务 经 营 ， 而 是 已 经 扩展 到 客户 服务 和 营销 领域 中 ， 特 别 是 可 以 通过 大 数据 的 应 用 ， 预 测 
未 来 业务 发 展 的 方向 ， 这 对 于 数据 驱动 业务 提出 了 挑战 。 

(2) 大 数据 管理 上 的 成 本 大 大 提高 

基于 大 数据 的 分 析 可 以 让 企业 高 层 的 经 营 雇 策 更 具有 客观 性 ， 但 是 也 导致 了 大 数据 管理 
上 的 成 本 大 大 提高 。 

(3) 产品 创新 不 足 

在 大 数据 时 代 ， 数 据 不 仅仅 是 企业 日 党 经 营 活 动 中 的 记录 ， 而 是 一 种 资产 ,目前 来 说 ， 
依赖 数据 标准 体系 ， 以 及 数据 架构 、 数 据 仓 库 等 手段 进行 产品 的 管理 和 应 用 。 但 是 在 产品 创 
新 上 仍然 不 足 。 

(4) 数据 整合 和 数据 质量 管理 的 难度 很 大 

对 于 大 数据 来 说 ， 数 据 整合 和 数据 质量 管理 的 难度 是 非常 大 的 。 为 了 保证 数据 的 一 致 
性 ， 应 该 运用 合适 的 技术 和 管理 手段 去 保障 大 数据 的 应 用 。 

(5) 一 些 企 业 和 银行 在 数据 利用 上 有 一 定 的 局 限 性 

在 大 数据 时 代 ， 国 内 的 一 些 企 业 和 银行 在 数据 利用 上 有 一 定 的 局 限 性 ， 特 别 是 商业 银 
行 ， 很 少 有 对 网 点 的 监测 数据 进行 利用 的 ， 导 致 数据 的 应 用 局 限 在 特定 的 用 途 和 场景 中 。 在 
国外 很 多 机 构 中 ， 可 以 将 各 种 非 结 构 化 数据 ， 如 影像 和 视频 文件 ， 转 化 成 对 用 户 的 行为 
分 析 。 

(6) 应 用 与 理论 研究 的 成 本 很 高 

从 技术 上 来 说 ， 大 数据 的 应 用 离 不 开 Hadoop、 云 计算 。 这 也 增加 了 应 用 与 理论 人 研究 
的 成 本 。 

(7) 业务 需求 和 技术 之 间 的 协调 

大 数据 意味 着 更 大 的 机 遇 ， 拥 有 巨大 的 应 用 价值 ， 企 业 的 开 技术 部 门 硕 望 业务 部 门 提 
出 大 数据 具体 的 分 析 需 求 ， 业 务 部 门 希 望 IT 技术 部 门 针 对 大 数据 提出 分 析 建 议 。 只 有 协调 
好 业务 需求 和 技术 之 间 的 关系 ， 才 能 发 挥 大 数据 真正 的 作用 。 

(8) 人 才 方 面 储备 不 足 

大 数据 面临 看 人 才 方 面 储备 不 足 的 问题 。 大 数据 需要 企业 具备 既 有 开 技术 ， 又 对 业务 
十 分 熟悉 的 复合 型 人 才 。 

举例 来 说 ， 某 银行 的 发 卡 量 迅速 增长 ， 随 着 业务 迅 独 发 展 ， 数 据 也 呈 线 性 增长 。 面 对 着 
传统 的 商业 智能 分 析 ， 旧 的 系统 架构 无 法 文 撑 大 数据 的 快速 增长 和 灵活 分 析 ， 无 法 实现 秒 级 
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营销 和 精准 萌 销 。 同 时 大 数据 分 析 面 临 着 人 才 缺 失 、 数 据 共 胖 难度 大 和 沙 地 困难 等 问题 。 虽 
然 大 数据 面临 着 各 种 挑战 ， 但 是 大 数据 分 析 也 带 来 了 巨大 的 经 济 利益 。 据 全 球 权 威 的 咨询 公 
司 Gartner 统计 ，2012 年 和 2013 年 大 数据 分 别 带 动 了 280 亿美 元 和 340 亿美 元 左右 的 开 文 
出 ， 按 照 此 速度 的 增长 ，2016 年 全 球 在 大 数据 上 的 总 花费 可 能 会 达到 2320 亿美 元 。 
2. 大 数据 为 各 行 各 业 带 来 了 巨大 的 经 济 利益 
2011 年 ， 大 数据 为 欧美 部 分 产业 带 来 的 收益 如 表 5-1 所 示 。 
表 5-1 大 数据 带 来 的 经 济 利益 








ee 美国 制造 业 的 产品 美国 零售 业 欧洲 的 公共 全 球 个 人 定位 

天 国医 疗 你 健 业 开发 和 组 装 环节 的 净利 润 管理 部 门 服务 供应 商 
带 来 3000 亿 节省 一 半 增长 了 60% 节省 了 2500 亿 增加 了 1000 亿 

美元 的 价值 的 成 本 支出 欧元 的 支出 美元 的 收入 








对 于 中 国企 业 来 说 ， 大 数据 技术 的 俩 发 和 投入 相对 较 少 ， 目 前 很 多 企业 没有 利用 好 大 数 
据 。 大 数据 的 发 展 对 于 我 们 的 局 示 ( 见 图 5-4) 是 : 





必须 把 握 好 大 数据 技术 ， 企业 制定 新 的 大 数据 人 才 战 略 ， 培 养 洞察 分 析 的 能 力 ， 以 
推进 企业 的 转型 创新 以 价值 体系 激励 员工 个 性 化 服务 襄 得 客户 





图 5-4 大 数据 的 发 展 对 于 我 们 的 启示 


1) 必须 把 握 好 大 数据 拉 术 ， 推 进 企业 的 转型 创新 。 
2) 需要 企业 制定 新 的 大 数据 人 才 战 略 ， 以 价值 体系 激励 员工 。 
3) 培养 洞察 分 析 的 能 力 ， 以 个 性 化 服务 去 最 得 客户 。 


5.1.3 大 数据 的 定义 和 特点 


虽然 目前 大 数据 没有 明确 的 定义 , 但 是 我 们 每 天 都 在 产生 海量 的 数据 ,数据 将 我 们 
“包围 ”起 来 ,我 们 正在 进入 到 “大 数据 时 代 ”。 根 据 Gartner 的 定义 ， 大 数据 的 特征 具体 涵 
着 了 称 为 4V 的 内 容 : 数据 量 大 (Volume)、 实 时 性 强 (Velocity ) 、 商业 价值 (Value) 、 数 
据 多 样 化 ( Variety) ， 如 图 5-5 所 示 。 

对 大 数据 关注 也 是 因为 它 列 藏 巨大 的 商业 价值 。 在 有 些 资 料 和 文档 中 ， 将 大 数据 的 特征 
定义 为 3V 特性 ， 包 括 数据 量 大 、 数 据 多 样 化 以 及 数据 产生 频率 、 更 新 频 座 局 。 在 这 里 我 们 
主要 讨论 大 数据 的 4V 特性 。 

数据 量 大 : 例如 ， 互 联网 、 物 联网 每 天 都 在 产生 大 量 的 数据 ， 数 据 量 持续 以 前 所 未 有 的 
速度 增加 。 效 据 量 大 是 大 数据 相关 的 重要 特征 之 一 。 

实时 性 强 : 主要 是 指数 据 产 生 的 速度 快 ， 数 据 变化 的 频 度 可 以 到 坚 秒 级 。 人 举例 来 次 ,我 
们 每 天 都 通过 传 感 带 或 者 监控 视频 产生 新 的 数据 ， 数 据 以 比 从 前 更 快 的 速度 产生 、 获 取 和 分 
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数据 量 大 〈Volume) 实时 性 强 (Valocity) 


大 数据 的 4V 特 性 


商业 价值 (Value) 有 数据 多 样 化 ( Varivety ) 





图 5-5 大 数据 的 4V 特性 





析 。 特 别 是 订单 、 微 博 、 监 探视 频 、 传 感 顺 、 文 付 等 每 时 每 刻 都 在 不 停 地 产生 数据 。 

数据 多 样 化 : 多 样 化 是 指数 据 类 型 的 复杂 性 和 数据 种 类 的 繁多 ， 用 来 描述 不 同类 型 的 数 
据 和 数据 源 。 随 着 传感器 和 一 些 智能 设备 的 发 展 ， 数 据 呈 现 了 爆炸 性 的 增长 态势 ， 包 括 如 电 
子 表 格 、 声 音 、 图 片 、 视 频 、 文 本 、 微 博 、 传 感 硕 数据 、 点 击 流 、 日 志文 件 、 手 机 呼叫 、 地 
图 GPS 等 内 容 。 

商业 价值 : 通过 对 大 数据 的 挖掘 和 分 析 ， 可 以 发 掘 出 巨大 的 商业 价值 。 

我 们 总 结 来 说 ， 大 数据 的 定义 就 是 通过 快速 采集 、 挖 掘 和 分 析 ， 从 大 数据 量 、 多 样 化 的 
数据 中 获取 价值 。 形 象 地 说 ， 大 数据 就 是 沙里 淘金 的 过 程 。 

对 于 传统 的 数据 仓库 技术 和 大 数据 处 理 ， 它 们 之 间 最 大 的 区 别 就 是 数据 仓库 更 多 地 是 对 
过 去 事物 的 分 析 ， 而 大 数据 主要 分 析 我 们 即将 面 对 的 问题 ， 也 就 是 预测 和 分 析 未 来 的 情况 ， 
具有 更 高 的 价值 。 

对 于 大 数据 来 说 ， 有 结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数据 三 种 类 型 。 

1) 结构 化 数据 主要 存在 于 关系 型 数据 库 ， 在 过 去 几 十 年 里 一 直 是 主流 的 应 用 。 

2) 半 绪 构 化 数据 : 包括 类 似 于 电子 邮件 、 文 字 处 理 文 件 以 及 网 上 新 闻 等 内 容 。 

3) 非 结构 化 数据 : 包括 社交 网 络 、 物 联网 、 移 动 计算 和 各 种 传 感 顺 产生 的 各 种 信息 ， 
可 以 有 音频 、 视 频 和 图片 等 内 容 。 目 前 超过 80% 的 数据 属于 非 结构 化 数据 。 

大 数据 对 于 系统 的 需求 主要 包含 陨 性 能 、 高 存储 、 可 扩展 和 低 延 到 等 儿 个 特性 。 高 性 
能 是 指 可 以 高 并 发 地 对 海量 数据 进行 谈 写 ， 同 时 依 徘 并 行 处 理 ， 快 速 啊 应 查询 、 分 析 。 蜗 存 
储 是 指 对 海量 数据 的 存储 。 可 扩展 是 支持 可 扩展 性 。 低 延 运 是 指 能 够 快速 啊 应 。 

下 面 详细 介绍 大 数据 的 几 个 特点 . 

(1) 数据 量 大 

大 数据 应 该 有 多 大 呢 ? 

举例 来 说 ，1999 年 ， 美 国 沃 尔 玛 公 司 的 数据 仓库 容量 是 100 TB，2012 年 ，Facebook 每 
天 的 数据 量 超过 $00TB。 目 前 ， 互 联网 上 一 天 的 内 容 就 可 以 刻 满 1. 68 亿 张 左右 的 DVD， 发 
出 的 社区 帖子 在 200 万 个 以 上 。 

帘 止 2012 年 ， 数 据 量 已 经 从 TB 级 跃升 到 PB 级 、EB 级 甚至 ZB 级 。2008 年 全 球 产 生 的 
数据 量 为 0.49ZB，2009 年 产生 的 数据 量 达 0. 8ZB，2010 年 产生 的 数据 量 是 1. 2ZB，2011 年 
的 数据 量 已 经 达到 1. 82ZB。 日 前 全 世界 数据 的 年 增长 量 达 到 50% 左右 。 又 如 ，2000 年 美国 
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新 墨西哥 州 数字 巡天 望远镜 局 用 几 周 后 ， 搜 集 的 数据 量 就 已 经 超过 了 天 文学 历史 上 的 数据 总 
和 。 这 一 切 都 意味 着 每 两 年 全 世界 的 数据 总 量 就 会 增加 一 倍 。 

据 IBM 公司 2012 年 研究 报告 ， 在 整个 人 类 文明 产生 的 全 部 数据 中 ， 有 大 约 90% 的 数据 
是 过 去 两 年 内 产生 的 。 到 2020 年 ， 全 世界 产生 的 数据 量 可 能 会 达到 今天 的 44 倍 左右 。 

(2) 实时 性 强 

大 数据 作为 感知 世界 的 “仪表 盘 " ， 它 的 增长 速度 很 快 ， 数 据 变化 与 处 理 的 频 度 可 以 到 
毫秒 级 ， 例 如 各 种 订单 、 支 付 、 监 探 等 ， 每 天 不 停 地 产生 着 数据 ， 同 时 对 海量 数据 进行 及 时 
分 析 。 对 于 某 些 应 用 来 说 ， 要 求 在 几 秒 钟 之 内 得 出 答案 ， 否 则 就 错过 了 最 佳 时 机 。 这 种 实时 
性 强 的 特点 也 是 区 别 于 传统 数据 仓库 和 商业 智能 技术 的 关键 特征 之 一 。 

实时 性 强 的 原因 是 数据 创建 的 快速 性 。 目 前 数据 是 以 传统 系统 不 可 能 达到 的 速度 在 获 
取 、 产 生 和 分 析 。 例 如 ， 各 种 的 股票 实时 分 析 、 实 时 动态 的 传 感 数据 、 各 种 的 交通 路 况 信 
息 、 每 一 秒 中 淘宝 平均 成 交 178 笔 订单 等 。 这 种 数据 产生 的 速度 ,已 经 完全 超 乎 了 人们 的 
想象 。 

(3) 商业 价值 

价值 密度 低 是 大 数据 的 一 个 典型 特征 。 犹 如 淘金 的 过 
程 ， 虽 然 大 多 数 都 是 沙子 ， 但 是 这 些 沙 子 中 仍然 存在 着 宝 
贵 的 黄金 ， 我 们 需要 做 的 就 是 将 大 多 数 的 沙 粒 去 除 和 清洗 
掉 ， 将 黄金 提取 出 来 ， 如 图 $-6 所 示 。 同 样 对 于 大 数据 来 
说 ， 多 数 的 数据 是 低 价 值 的 ， 例 如 影响 天 气 因 素 的 数据 很 
多 , 但 是 每 一 条 单独 的 信息 都 是 价值 很 低 的 ， 只 有 将 这 些 
谊 息 汇总 和 综合 到 一 起 ， 才 能 具备 对 天 气 预测 的 能 力 。 6 

(4) 数据 多 样 化 

对 于 大 数据 来 说 ， 数 据 种 类 繁多 ，80% 以 上 的 数据 来 自 于 半 结 构 化 数据 和 非 结 构 化 数 
据 ， 如 文档 、 视 频 、 电 子 邮 件 等 。 

随 着 传感器 、 智 能 设备 技术 的 发 展 ， 数 据 的 类 型 呈现 多 样 化 的 态势 ， 包 括 文本 、 微 博 、 
音频 、 视 频 、 传 感 器 数据 、 日 志文 件 、 手 机 呼叫 、 地 震 勘 探 、 气 象 云图 、 卫 星 遥 感 、 物 联 
网 、 环 保 监 测 、 熏 情 监控 、 地 图 GPS 和 各 种 的 点 击 流 等 。 将 这 些 不 同类 型 的 数据 进行 交 又 
分 析 ， 是 大 数据 的 核心 技术 之 一 。 特 别 是 语义 分 析 和 各 种 地 理 位 置信 息 技 术 都 会 在 大 数据 时 
代 得 到 广泛 应 用 。 


5.1.4 大 数据 下 的 数据 架构 


分 析 前 一 草 的 数据 染 构 规划 图 ， 其 中 在 数据 临时 区 中 有 非 结构 化 数据 一 项 ， 如 图 5-7 
所 未。 

如 何 处 理 非 结 构 化 数据 呢 ? 如 图 5-8 所 示 。 

首先 可 以 使 用 “网 络 候 虫 ” 手 段 收 集 非 结构 化 的 数据 ， 在 Hadoop 平台 中 建立 非 结 构 化 
言 县 的 标签 、 摘 要 、 有 索引 、 日 六、 内容 等 ， 然 后 提取 结构 化 的 元 数据 信息 ， 如 类 别 、 摘 要 等 
内 容 ， 最 后 与 基础 数据 中 的 结构 化 数据 进行 整合 。 

对 于 流 数 据 来 说 ， 它 强调 的 是 实时 处 理 与 分 析 ， 而 不 是 数据 存储 ， 所 以 只 在 内 存 中 进行 
处 理 ， 不 落 在 具体 的 磁盘 中 。 随 着 时 间 的 流动 ， 它 只 对 一 段 时 间 内 的 数据 进行 处 理 。 例 如 ， 
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图 5-8 非 结构 化 数据 的 处 理 流 程 


它 把 银行 交易 系统 的 日 志 信 息 实 时 地 放 到 流 平台 当中 ， 进 行 反 欺诈 的 实时 监测 ， 流 计算 一 般 
可 以 在 几 秒 钟 之 内 对 海量 数据 中 的 异常 行为 进行 预测 和 分 析 。 

总 之 ,对 于 基础 数据 来 说 ,， 它 存储 的 都 是 有 用 的 信息 ， 类 似 于 存储 的 都 是 “黄金 ”。 
Hadoop 平台 存储 的 是 从 网 络 中 收集 来 的 沙子 ， 我 们 的 目的 就 是 将 沙子 里 的 贡 金 师 选 出 来 。 
非 结 构 化 数据 通过 网 络 疏 虫 等 手段 把 数据 放 和 人 到 Hadoop 平台 中 ， 再 转化 成 结构 化 数据 进行 
分 析 。 

大 数据 的 一 个 重要 应 用 就 是 与 情 分 析 ， 利 用 网 上 收集 的 信息 ， 如 正 而 、 负 面 的 信息 ,分 
析 人 们 的 情感 和 进行 预 鸭 分 析 。 午 情 分 析 包 括 企 业 的 声誉 分 析 、 品 有 牌 分 析 、 服 务 质 量 分 析 、 
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苋 争 产 品 分 析 、 市 场 动态 跟踪 等 内 容 。 
随 春 业 务 的 扩展 ， 用 户 应 该 对 大 数据 进行 数据 架构 规划 ， 如 图 5-9 所 示 。 
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图 5-9 大 数据 的 数据 染 构 规划 


大 数据 的 数据 架构 规划 可 以 采用 Hadoop 技术 ,通过 与 结构 化 数据 的 关联 ， 进 一 步 拓展 
对 非 结 构 化 数据 的 处 理 ， 其 中 数据 源 包括 结构 化 数据 、 半 结构 化 数据 、 非 结构 化 数据 ， 特 别 
是 非 结 构 化 数据 和 半 结 构 化 数据 通过 网 络 爬 虫 的 方式 收集 信息 ， 经 过 内 容 管理 平台 的 处 理 ， 
将 非 结 构 化 数据 、 半 结构 化 数据 结构 化 处 理 ， 其 中 可 以 将 内 容 管 理 平台 处 理 得 出 的 非 结 构 化 
数据 的 元 数据 信息 存放 到 基础 数据 存储 中 。 

对 于 Hadoop 平台 来 说 ， 它 是 基于 HDFS 或 Hbase 存放 非 结 构 化 / 半 结 构 化 数据 。 对 于 应 
用 来 说 ， 它 是 基于 结构 化 数据 、 半 结构 化 数据 、 非 结构 化 数据 进行 综合 分 析 。 

对 于 我 们 熟知 的 流 数据 ， 具 有 哪些 特性 呢 ?” 如 图 5-10 所 示 。 

“管道 式 ” 数 据 处 理 易于 管理 ， 易 于 扩展 












海量 数据 的 支持 


动态 分 析 


支持 多 种 数据 接口 





低 成 本 硬件 资源 一 J 


EB 高 速 数据 传输 ， 分 布 式 执行 
支持 结构 化 数据 、 半 结构 
和 非 结 构 化 数据 类 型 


图 5-10” 流 数据 特性 


流 数据 具有 “管道 式 ” 的 数据 处 理 方 式 ， 易 于 管理 、 易 于 扩展 ， 文 持 并 行 计算 和 多 种 
数据 接口 ， 以 及 各 种 低 成 本 便 件 资源 。 同 时 支持 结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数据 
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类 型 ， 也 文 持 高 速 数据 传输 和 低 延 迟 动态 分 析 等 。 
流 分 析 的 主要 过 程 如 图 5-11 所 示 。 


非 结构 化 数据 


WU 态 分 析 析 结 果 
fe ; 


图 5-11 流 分 析 的 主要 过 程 








流 数 据 有 哪些 作用 ? 
流 数据 可 以 保障 数据 处 理 的 实时 性 ， 提 高 数据 分 析 和 决策 的 实时 性 ， 同 时 实现 数据 控 
据 、 分 析 和 展现 的 有 效 融 合 ， 降 低 延 到 性 。 


大 数据 的 处 理 流 程 
大 数据 的 处 理 流程 主要 包括 大 数据 的 采集 、 对 数据 的 统计 分 析 和 对 数据 的 挖 气 等 三 
阶段 。 


(1) 大 数据 的 采集 

通过 数据 库 接收 来 目 客 户 问 的 数据 ， 同 时 进行 查询 和 处 理 。 例 如 ，Oracle、MySQL、 
HBase 和 MongoDB 等 ， 这 些 产 品 有 各 目的 特点 。 

(2) 对 数据 的 统计 分 析 

对 于 繁 洒 、 粗 糙 的 、 庞 大 的 数据 来 说 ， 一 旦 经 过 提 炬 和 加 工 ， 便 可 能 市 来 巨大 的 经 济 效 
益 。 可 以 利用 分 布 式 技术 对 海量 数据 进行 查询 和 汇总 。 特 点 是 查询 的 数据 量 大 ， 查 询 的 请 求 
多 。 包 含 的 产品 包括 Hadoop 、Oracle Exadata， 可 以 做 离线 分 析 和 实时 分 析 

(3) 对 数据 的 挖 所 

对 查询 的 数据 进行 挖掘 分 析 ， 满 足 高 级 的 数据 分 析 ,， 但 涉及 的 算法 复杂 ， 数 据 量 
巨大 。 

银行 每 天 都 在 处 理 千 万 量 级 的 交易 ， 它 记录 了 我 们 每 一 笔 的 收入 和 文 出 情况 ， 包 括 资金 
的 汇 人 和 汇 出 情况 。 在 未 来 ， 数 据 将 以 40% 的 速度 快速 增长 ， 大 数据 为 银行 市 来 的 价值 是 
不 可 佑 量 的 。 

商业 银行 可 以 分 析 客 户 使 用 网 银 的 习惯 ， 将 最 第 用 的 功能 展示 在 登录 界面 上 ， 省 去 了 用 
户 在 菜单 中 跳 转 所 花费 的 时 间 。 同 样 ， 我 们 也 可 以 基于 对 数据 的 采集 和 识别 ,评估 信用 卡 申 
请 人 提交 的 信息 和 证 明 材 料 ， 包 括 其 他 信用 卡 发 行商 提供 的 申请 人 交易 信息 和 还 球 信 息 。 一 
些 营 销 专 家 和 数据 分 析 专 家 可 以 借助 数据 挖 据 工 具 ， 对 用 户 的 信息 进行 提炼 和 分 析 ， 然 后 基 
于 对 海量 数据 的 挫 据 ， 进 行 风险 控制 和 用 户 和 营销 。 


5.1.5 大 数据 分 析 和 平台 基础 框 染 


大 数据 分 析 平 台 主 要 包括 大 数据 基础 平台 、 平 台 组 织 团队 、 数 据 治理 和 应 用 系统 等 。 
103 












































(1 ) 大 数据 基础 平台 

在 统一 调度 下 ， 整 合 各 类 数据 ， 以 文 撑 应 用 。 

(2) 平台 组 织 团 队 

平台 组 织 团 队 主 要 包括 大 数据 需求 分 析 、 和 平台 建设 和 运 维 等 组 织 和 团队 。 

(3) 数据 管控 

建立 数据 标准 管理 、 数 据 质 量 管理 、 元 数据 管理 和 数据 生命 周期 管理 机 制 ， 为 基础 平台 
提供 保障 。 

(4) 应 用 系统 

建设 各 类 数据 应 用 系统 ， 发 挥 大 数据 的 价值 。 


5.1.6 大 数据 技术 如 何 落 地 

很 多 企业 都 知道 大 数据 应 用 的 重要 性 ， 但 是 不 清楚 如 何 更 好 地 利用 大 数据 ， 很 多 企业 在 
大 数据 应 用 时 最 大 的 难题 就 是 如 何 保 证 大 数据 的 落地 。 下 面 介 绍 大 数据 如 何 落地 ， 如 
图 5-12 所 示 。 











首先 大 数据 应 该 “从 小 做 起 ”， 导 找 
合适 的 业务 场景 









大 数据 的 核心 应 由 业务 来 驱动 i 
考虑 大 数据 落地 的 关键 因素 


图 5-12 ”如 何 保 证 大 数据 的 落地 


(1) 首先 大 数据 应 该 “从 小 做 起 ”， 寻 找 合 适 的 业务 场景 

企业 应 该 避免 缺乏 具体 且 可 测量 的 相关 应 用 ， 对 企业 面临 的 问题 和 各 种 业务 需求 进行 深 
入 分 析 ， 理 解 企 业 最 迫切 的 需求 是 什么 ， 从 哪里 人 手 最 容易 产生 效 末 。 

(2) 大 数据 的 核心 应 由 业务 来 驱动 

对 于 企业 来 说 ， 大 数据 的 核心 应 由 业务 来 驱动 。 特 别 是 跨行 业 的 业务 场景 ， 如 数据 探 
索 、 风 险 管 理 、 反 其 诈 等。 具体 的 行业 主要 包括 医疗 、 零 售 、 商 业 银行 等 ， 它 们 都 有 目 己 独 
特 的 业务 需求 ， 如 基于 地 理 位 置 的 精准 客户 营销 。 

(3) 考虑 大 数据 落地 的 关键 因素 

大 数据 落地 的 关键 因 素 包括 : 如 何 实时 获取 非 结构 化 数据 ， 如 何 组 织 和 集成 大 数据 ， 如 
何 使 用 工具 和 技术 分 析 大 数据 ， 如 何 为 企业 提供 实时 的 、 共 于 的 、 全 面 的 业务 决策 分 析 。 



























5.2 ”大 数据 相关 拉 术 概述 


大 数据 相关 的 技术 主要 包括 : 云 计 算 、 物 联网 、 分 析 工 具 、 社 交工 具 、 移 动 计算 等 ， 如 
图 5-13 所 示 。 
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人 i 
移动 计算 wy 好 多 社交 工具 
图 5-13 大 数据 相关 的 技术 


其 中 ， 云 计算 技术 是 为 大 数据 时 代 进 行 的 技术 准备 ， 它 可 以 突破 边界 存储 技术 。 而 物 联 
网 扩 术 主要 是 证 明 世 界 是 联系 的 ， 而 我 们 现在 火热 的 智 间 城市 就 是 利用 物 联网 技术 实现 的 ， 
将 来 还 会 出 现 智 慧 乡 村 、 智 慧 社 区 和 智慧 家 庭 ， 如 图 5-14 所 示 。 








ni 
图 5-14 大 数据 相关 的 应 用 


使 用 大 数据 技术 的 目的 是 为 了 让 我 们 的 生活 变 得 更 智能 化 、 更 美好 。IT 技术 的 终极 目 
的 就 是 为 了 实现 智 意 地 球 。 其 中 移动 计算 技术 是 为 了 传递 信息 ， 使 得 人 们 获得 大 幅度 的 信息 
目 由 。 而 社交 工具 可 以 为 客户 提供 方便 快捷 的 服务 ， 玫 助 企 业 开 展 全 方位 的 营销 。 


5.2.1 相关 生产 厂商 大 数据 技术 简介 


大 数据 技术 相关 厂商 包括 IBM 公司 、 微 软 公 司 、EMC 公司 和 甲骨 文公 司 等 ， 如 图 5-15 
所 示 。 

1. IBM 公司 相关 技术 

IBM 公司 提供 的 大 数据 服务 主要 包括 : 数据 分 析 、 文 本 分 析 、 监 测 和 各 类 商业 服务 。 其 
中 在 一 些 大 数据 产品 中 ， 比 较 新 的 产品 是 IBM InfoSphere BigInsights， 它 是 基于 开源 的 
Hadoop 技术 ， 目 的 是 从 大 量 的 数据 中 提取 相关 的 信息 。 它 为 金融 等 行业 制定 了 大 数据 的 解 
决 方案 。IBM 公司 一 直 致 力 于 对 大 数据 、 信 息 流 和 结构 化 数据 的 研究 。 

在 短 短 几 年 时 间 内 ，IBM 公司 投入 大 量 的 资金 进行 并 购 和 人 研究。 例如 ，2009 年 收购 了 
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图 5-15 大 数据 技术 相关 厂商 


数据 分 析 和 统计 软件 提供 商 SPSS，2010 年 收购 了 数据 库 分 析 供 应 商 Netezza 公司 等 。 
下 面 分 析 一 下 该 公司 产品 具有 哪些 特点 ， 如 图 5-16 所 示 。 
批量 、 实 时 的 加 载 处 理 能 










优化 对 海量 数据 人 二 汰 及 Za 在 储 和 处 理 结构 化 
的 处 理 ee 和 结果 数据 


© 
© SS 
Cp 引入 数据 安全 机 制 


国电 
缩短 开发 周期 Wp 
图 $-16 IBM 公司 相关 产品 具有 的 特点 


(1) 优化 对 海量 数据 的 处 理 

基于 Hadoop 技术 ， 实 现 对 海量 数据 的 分 析 ， 包 括 对 大 数据 的 存储 和 分 析 。 

(2) 批量 、 实 时 的 加 载 处 理 能 

基于 Hadoop 撤 术 ， 实 现 对 结构 化 数据 、 非 结构 化 数据 批量 和 实时 地 加 载 处 理 。 

(3) 存储 和 处 理 结构 化 结果 数据 

可 以 存储 和 人 处理 结构 化 结 采 数据 。 其 中 内 置 的 文本 语义 分 析 和 预测 组 件 可 以 实现 对 非 结 
构 化 数据 的 结构 化 处 理 。 

(4) 引入 数据 安全 机 制 

引入 专业 的 数据 安全 机 制 ， 对 数据 进行 有 效 的 审计 和 保护 ， 使 得 数据 处 理 更 加 快速 、 可 
靠 、 安 全 和 稳定 。 

(5) 缩短 开发 周期 

该 产品 可 以 让 开发 人 员 能 够 关注 业务 逻辑 ， 而 不 是 技术 细节 的 实现 ， 大 大 降低 了 开发 的 
复杂 性 ， 缩 短 了 开发 周期 ， 屏 蔽 了 MapReduce 的 实现 细 。 
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2. 微软 公司 相关 技术 

微软 公司 提供 的 Windows HPC Server 2008 是 一 种 基于 Windows Server 技术 的 高 性 能 计算 
解决 方案 。 同时 微软 公司 也 开发 了 并 行 处 理 技术 ， 回 Windows HPC Server 的 用 户 提 供 处 理 大 
数据 的 工具 。 特 别 是 与 惠普 公司 合作 开发 了 一 系列 能 够 提升 决策 速度 的 设备 。 

3. EMC 公司 相关 技术 

对 于 EMC 公司 ， 大 数据 解决 方案 涉及 多 达 几 十 个 产品 。 这 些 大 数据 解决 方案 可 以 有 效 
使 用 来 自 不 同 数据 源 的 数据 ， 包 括 网 页 、 监 控 系 统 和 传 感 带 的 信息 。 

例如 ,EMC Greenplum 的 设备 ， 通过 大 规模 并 行 处 理 ( MPP) 架构 去 解决 大 数据 相关 的 


问题 。 











4. 甲骨 文公 司 相 天 技术 

甲骨 文公 司 为 大 数据 提供 了 多 种 软 便 件 方案 ， 同 时 在 大 数据 的 市 场 上 提供 了 多 种 核心 产 
品 。 例 如 ，Oracle 大 数据 机 与 Oracle Exadata 数据 库 云 服务 硕 、Oracle Exalogic 中 间 件 云 服务 
可 一 起 组 成 了 广泛 和 集成 的 产品 系列 。 

甲骨 文公 司 面 回 大 数据 的 解决 方案 主要 包括 : 数据 的 捕获 、 组 织 、 分 析 和 决策 ， 如 


捕获 S 组 织 
全 
区 


图 $-17 所 示 。 








图 5-17 甲骨 文公 司 面 癌 大 数据 的 解决 方案 


5.2.2 大 数据 与 云 计算 


对 于 云 计算 来 说 ， 相 当 于 提供 一 个 快捷 的 海量 数据 处 理 的 平台 ， 它 为 大 数据 提供 了 访 
问 、 管 理 的 渠 道 和 场所 。 云 计算 本 质 上 束 是 利用 数据 处 理 技术 实现 企业 的 各 种 业务 配 式 。 例 
如 ， 企 业 的 经 童 数据 、 银 行 的 交易 信息 ， 互 联网 中 的 交互 信息 ， 以 及 物流 行业 中 的 商品 及 物 
流 信息 ， 和 都 可 以 利用 云 计算 技术 进行 存储 、 计 算 和 访问 。 大 数据 和 云 计算 等 信息 技术 为 非 结 
构 化 数据 管理 提供 了 文 返 ， 对 于 企业 来 说 ， 决 策 痢 将 脱离 经 验 和 下 和 党， 更 加 倾 问 基于 大 数据 
分 析 做 出 决 宁 。 

举例 来 讽 ， 如 末 把 商业 智能 转移 到 云 计算 平台 上 ， 可 以 在 很 大 程度 上 提高 商业 智能 的 运 
行 效 率 和 数据 分 析 能 力 。 特 别 是 金融 行业 ， 已 经 明确 提出 了 “ 云 + 大 数据 ”的 战略 ， 如 
图 5-18 所 示 。 我 们 可 以 把 云 计算 当做 基础 设施 建设 ， 而 大 数据 作为 资产 ， 数 据 挖掘 是 实现 
价值 的 手段 之 一 ， 预 测 分 析 是 要 达到 的 目的 。 
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云 计算 当做 基础 设施 建设 大 数据 作为 资产 


了 | ese] 
数据 挖 握 是 实现 价值 的 手段 之 一 A 


图 5-18 “ 云 + 大 数据 ”的 战略 


从 技术 创新 的 角度 来 说 ， 大 数据 的 处 理 技 术 应 该 增强 安全 性 、 高 可 用 性 ， 包 括 对 大 数据 
的 解密 、 加 密 、 动 态 口令 认证 等 内 容 。 在 业务 创新 上 ， 应 该 提供 更 次 层次 的 挖掘 ， 有 效 地 提 
升 业务 能 力 ， 为 大 数据 提供 广泛 的 管理 平台 。 

大 数据 时 代 下 的 超大 数据 量 ， 包 括 占 到 一 半 以 上 的 半 结 构 化 和 非 结构 化 数据 ， 已 经 远 远 
超出 了 传统 数据 库 的 管理 能 力 ， 大 数据 技术 可 以 帮助 人 们 存储 和 管理 大 量 的 数据 。 可 以 从 低 
价值 、 高 复杂 度 的 数据 中 提取 有 用 的 价值 ， 特 别 是 相关 的 产品 和 技术 不 断 涌现 。 从 本 质 上 来 
说 ， 大 数据 也 是 数据 ， 依 然 离 不 开 对 数据 的 存储 、 检 索 和 管理 ， 如 挖掘 分 析 等 。 我 们 可 以 利 
用 大 数据 技术 和 云 计 算 ， 改 善 和 提高 各 个 行业 的 经 营 模 式 。 

关于 大 数据 和 云 计 算 的 处 理 技术 ， 主 要 包括 以 下 内 容 : 

(1) 大 数据 和 云 计 算 共 同 改 变 商业 运营 模式 

大 数据 和 云 计 算 共 同 改 变 着 企业 的 商业 运营 模式 ,在 目前 社会 中 ,充斥 着 各 种 海量 数 
据 ， 如 博客 、 微 博 、 邮 件 、 视 频 、 音 频 、 文 档 等 非 结 构 化 数据 ， 利 用 大 数据 和 云 计算 技术 将 
任务 分 布 在 资源 池上 ， 满 足 对 大 数据 的 计算 和 存储 需求 。 

大 数据 和 云 计 算 的 结合 满足 低 成 本 人 硬件、 软件 的 要 求 ， 同 时 能 够 处 理 各 种 类 型 的 海量 数 
据 ， 正 在 悄悄 改变 着 商业 运营 模式 。 

(2) 关于 大 数据 和 云 计 算 的 存储 和 管理 

云 计算 对 关系 型 数据 库 产 生 了 巨大 的 影响 。 它 可 以 提高 对 海量 数据 的 并 行 处 理 能 力 和 实 
时 分 析 能 力 ， 同 时 提供 在 线 分 析 处 理 和 在 线 事务 处 理 的 能 力 ， 也 可 以 满足 大 数据 环境 下 的 业 
务 需求 。 通 过 大 数据 技术 和 云 计算 的 结合 ， 除 了 降低 建设 大 型 数据 仓库 和 软 人 硬件 设备 的 成 
本 ， 也 大 大 减轻 了 运营 、 运 维和 推广 的 压力 。 通 过 云 计算 和 大 数据 技术 进行 海量 数据 的 统 
计 、 分 析 、 预 测 处 理 ， 可 以 促进 传统 商业 智能 系统 的 发 展 ， 快 速 适应 商业 模式 的 变化 。 

例如 ， 云 计算 可 以 满足 对 海量 数据 的 处 理 ， 能 够 处 理 PB 级 的 数据 量 。 同 时 可 以 简单 部 
署 ， 快 速 啊 应 ， 减 少 和 磁盘 IO 时 间 ， 降 低 建 设 、 运 营 成 本 ， 特 别 是 大 幅度 地 降低 了 便 件 成 本 、 
软件 成 本 和 人 力 成 本 。 


5.2.3 大 数据 和 传统 商业 智能 分 析 


大 数据 分 析 和 传统 商业 乔 能 分 析 在 内 容 、 分 析 方 法 和 各 种 时 效 性 要 求 上 各 有 很 大 不 同 ， 
传统 数据 仓库 平台 已 经 很 难 文 持 所 有 的 分 析 应 用 ， 需 要 开发 各 种 标准 接口 ， 文 持 MPP 染 构 、 
内 存 计 算 和 Hadoop 技术 等 。 只 有 构建 混合 型 的 大 数据 云 平 台 ， 才 能 够 文 持 传 统 的 商业 智能 
和 大 数据 分 析 。 

传统 商业 乔 能 分 析 主 要 是 面向 内 部 的 结构 化 数据 ， 依 赖 数据 仓库 ， 以 报表 查询 和 挖 气 分 
108 





预测 分 析 古 要 达到 的 目的 







































































析 为 主 。 大 数据 分 析 包 含 结构 化 、 半 结构 化 和 非 结 构 化 的 数据 ， 一 般 数 据 量 都 在 TB 级 以 
上 ,主要 以 挖 抉 分析 、 实 时 预测 为 主 。 

特别 是 主要 的 商业 智能 供应 商 午 宣称 对 大 数据 技术 的 文 择 ， 或 者 在 一 些 解决 方案 中 使 用 
了 大 数据 技术 ， 大 数据 可 以 作为 传统 数据 库 、 数 据 仓 库 的 扩展 。 它 们 是 相互 促进 的 关系 ， 
而 不 存在 互相 取代 的 问题 。 因 此 ， 为 了 满足 未 来 商业 智能 的 发 展 ， 应 该 将 大 数据 技术 和 商业 
智能 技术 结合 起 来 。 


5.3 大 数据 的 应 用 情 、 





近 几 十 年 ， 随 着 计算 机 技术 的 发 展 ， 信 息 已 经 积累 到 了 一 定 程 度 ， 它 比 历史 上 任何 一 段 
时 期 充斥 着 的 信息 都 多 ， 而 且 数据 的 增长 已 经 达到 了 前 所 未 有 的 速度 。 对 于 中 国企 业 来 说 ， 
应 该 利用 大 数据 ， 将 传统 模式 转变 成 以 数据 服务 为 核心 的 商业 模式 。 

大 数据 在 现代 社会 应 用 非常 广泛 。 例 如 ， 在 电子 商务 中 ， 每 天 可 以 访问 1 亿 次 ， 每 年 可 以 由 
10 亿 人 访问 ， 并 且 进 行 网 络 交 易 。 对 于 保险 业 来 说 ， 可 以 进行 大 量 的 图 片上 传 工 作 和 索赔 分 析 
工作 ,每 天 可 以 有 100 万 次 。 例 如 ， 可 以 为 客户 提供 在 线 透 明 分 析 ， 对 于 2000 万 辆 汽车 来 说 ， 
每 天 大 约 有 10 亿 条 同步 记录 。 对 于 医疗 卫生 业 来 说 ， 每 天 可 以 有 2000 万 次 的 监视 。 

大 数据 的 应 用 还 包括 很 多 方面 ， 如 数据 的 可 视 化 技术 ， 可 以 更 清晰 和 准确 地 展示 多 维 数 
据 ， 反 映 趋 势 变化 等 。 同 时 可 以 提供 更 快 、 更 便宜 的 预测 分 析 。 

大 数据 应 用 的 行业 如 图 5-19 所 示 ， 主 要 包括 金融 服务 业 、 数 据 媒体 、 交 通 运 输 、 司 法 
执法 和 和 零售 等 行业 。 
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图 5-19 大 数据 应 用 的 行业 
对 于 金融 服务 业 来 说 ， 大 数据 的 应 用 主要 包括 : 金融 欺诈 检测 、 反 洗钱 等 。 可 以 跨 多 个 











实时 信息 流 关联 复杂 的 风险 分 析 ， 并 且 得 到 实时 响应 ,每 天 可 以 增加 10TB 的 数据 ， 甚 至 更 
多 。 还 可 以 全 方位 分 析 客 户 视 图 。 

下 面 分 析 一 下 随 着 互联 网 金融 时 代 的 到 来 ， 对 商业 银行 造成 了 哪些 冲击 。 主 要 表现 在 以 
下 刀 个 方面 : 

1) 传统 的 存 贷款 业务 受到 很 大 的 压力 ， 因 为 互联 网 金融 有 着 强大 的 技术 创新 能 力 ， 导 
致 金融 脱 媒 的 现象 越 来 越 严重 。 

2) 长 期 以 来 ， 传 统 的 商业 银行 一 直 依 赖 利 嚼 ， 创 新 的 动力 不 足 ， 同 时 机 构 元 余 ， 变 章 
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3) 互联 网 金融 已 经 成 为 我 国 金融 服务 的 有 效 补充 ， 在 一 定 程 度 上 可 以 解决 了 中 小 企业 
融资 困难 的 问题 。 

4) 互联 网 金融 可 以 通过 社交 网 络 和 电子 商务 平台 挖掘 与 金融 相关 的 各 种 信息 ,满足 用 
户 的 需求 ， 同 时 对 客户 的 服务 更 具有 针对 性 。 

但 是 对 于 商业 银行 来 说 ， 同 样 具 有 目 己 的 优势 ， 例 如 : 

1) 商业 银行 在 金融 领域 中 长 期 处 于 领先 的 地 位 ， 已 经 建立 起 自己 的 品牌 ， 获 得 了 客户 
的 信任 。 

2) 商业 银行 具有 专门 的 监管 机 构 ， 例 如 银监会 体系 ， 它 同时 具有 成 见 的 风险 管控 
体系 。 

3) 商业 银行 正在 努力 提升 网 银 和 电子 银行 的 客户 满意 度 和 交易 活跃 度 ， 同 时 提供 了 与 
P2P 不 同 的 差异 化 服务 ， 利 用 长 期 建立 起 来 的 品牌 和 信用 去 吸引 投资 者 和 融资 者 。 

可 以 这 样 资 ， 基 于 大 数据 的 应 用 ， 对 未 来 金融 行业 的 发 展 将 会 起 到 关键 性 的 作用 。 

同时 ， 对 于 其 他 行业 来 说 ， 大 数据 技术 也 会 促进 其 不 断 发 展 ， 见 表 5-2。 

表 5-2 大 数据 同样 可 以 促进 其 他 行业 的 发 展 



































名 称 属 性 

数字 媒体 实时 广告 定位 、 精 准 广告 投放 、 属 性 分 析 
零售 全 渠道 客 销 、 实 时 促销 

司法 执法 多 点 监测 、 网 络 安全 检测 

交通 运输 物流 优化 、 绥 解 交 通 拥 墙 


目前 来 说 ,很 多 全 企 业 痢 在 积极 推出 大 数据 相关 的 产品 和 方 条 。 

1) IT 企业 根据 客户 的 实际 需求 来 进行 商品 推荐 ， 根 据 客户 购 买 商 品 的 历史 记录 ， 推 荐 
其 俩 好 的 相关 产品 ， 或 者 根据 用 户 的 训 览 历史 ， 推 厦 符 合用 户 豆 好 的 商品 等 。 

2) 如 何 挽留 客户 ， 更 好 地 为 客户 提供 服务 ， 数 据 起 到 了 重要 的 作用 。 可 以 对 客户 进行 
分 类 ， 针 对 不 同 的 客户 群体 ， 制 定 不 同 的 侣 销 策略 。 例 如 ， 回 新 注册 用 户 发 送 一 些 优惠 券 
问 老 客户 发 送 一 些 折扣 信息 等 。 


5.3.1 大 数据 在 金融 行业 的 应 用 


“大 数据 ”的 特征 为 ， 数据 量 大 ， 数 据 种 类 繁多 ， 数 据 的 增长 速度 加 快 ， 数 据 来 源 的 多 
样 性 。 在 大 数据 时 代 ， 关 于 大 数据 的 挫 气 工作 迅速 增加 ， 它 的 数据 来 源 更 加 广泛 ， 可 以 通过 
数据 交换 、 整 合 发 现 市 场 的 趋势 ， 让 企业 或 者 商业 银行 发 现 商 机 ， 创 造 新 的 价值 。 同 时 可 以 
使 用 仿 丰 和 复 洒 的 计算 ， 在 计算 速度 极 快 的 条 件 下 完成 工作 任务 。 当 然 ， 在 大 数据 时 代 下 ， 
我 们 面临 的 主要 问题 是 数据 的 真实 性 ， 因 此 ， 需 要 大 量 的 数据 模型 去 分 析 ， 以 保证 数据 的 准 
确 性 。 

在 几 十 年 前 ， 商 业 银 行使 用 传统 的 核算 记录 各 类 数据 ， 而 在 目前 ， 商 业 银 行 是 以 计算 
机 、 各 种 电子 化 设备 采集 数据 ， 因 此 形成 了 目前 的 海量 数 气 。 

对 于 以 前 的 银行 数据 ， 因 为 过 于 分 散 ， 源 头 单一 ， 无 法 表现 客户 的 交易 行为 ， 以 及 客户 
的 喜好 和 消费 习惯 等 特征 。 因 上 此， 银行 很 难 了 解 客户 对 于 产品 和 服务 的 满意 程度 ， 无 法 从 根 
本 上 弥补 信息 的 不 对 称 性 。 同 时 ， 商 业 银 行 拥 有 大 量 的 客户 数据 ， 可 以 通过 数据 分 析 获 得 很 
170 


















































多 信息 ， 但 是 因为 信息 的 不 全 面 性 ， 可 能 在 管理 和 营销 上 得 到 错误 的 结论。 

例如 ， 某 位 信用 卡 用 户 月 均 刷 卡 10 次 ， 月 均 刷 卡 300 元 ， 每 年 平均 拨打 5 次 客服 电话 ， 
但 是 从 未 投诉 。 那 么 按照 这 些 信息 ， 该 客户 是 一 名 满意 度 较 高 、 流 失 率 很 低 的 客户 。 但 是 真 
实情 况 是 : 该 客户 多 次 打 客 服 电话 都 没有 接 通 ， 客 户 多 次 在 微 博 和 博客 上 进行 抱怨 还 亚 不 方 
便 ， 客户 服务 不 好 ， 可 以 看 出 该 客户 的 流失 风险 很 咒 ， 如 图 5-20 所 示 。 
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图 5-20 信用卡 客户 示例 








在 大 数据 时 代 ， 商 业 银 行 面临 的 压力 不 仅 来 目 于 同行 业 之 间 的 竞争 ， 同 时 来 和 目 于 外 部 挑 
战 的 压力 也 越 来 越 大 ， 特 别 是 在 互联 网 和 电子 税务 等 企业 中 ， 它 们 的 产品 创新 能 力 和 大 数据 
应 用 能 力 明 显 超过 商业 银行 ， 同 时 这 些 企 业 也 在 涉足 金融 领域 ， 改 变 着 人 们 的 金融 消费 模 
式 ， 银 行将 在 以 后 的 发 展 过 程 中 ， 承 受 着 巨大 的 压力 。 

举例 来 说 ， 阿 里 小 额 贷 蒜 公司 可 以 根据 人 们 的 信和 淮 度 发 放贷 蒜 ， 不 需要 提供 担保 。 其 具 
体 做 法 是 根据 其 电 商 平台 、 淘 宝 网 和 支付 宝 等 信息 数据 ， 依 赖 大 数据 分 析 技 术 ， 判 定 哪些 个 
人 和 企业 可 以 发 放贷 款 ， 贷 款额 度 是 多 少 等 。 同 时 也 可 以 使 用 大 数据 算法 找 出 葛 争 对 手 产 品 
价格 的 变化 ， 从 而 改善 目 己 的 价格 以 保持 葛 争 力 。 

所 以 说 ， 大 数据 已 经 改变 了 我 们 的 生活 模式 ， 提 供 了 产品 创新 的 新 思路 。 网 民 和 消费 者 
的 区 别 正在 模糊 ， 数 据 成 为 核心 的 资产 。 在 大 数据 时 代 ， 如 何 能 够 利用 大 数据 技术 ， 深 刻 理 
解 消费 者 的 需求 ， 做 出 预测 和 判断 ， 是 企业 和 银行 需要 考虑 的 问题 。 

大 数据 在 金融 行业 的 应 用 除了 行业 分 析 、 风 险 评 佑 外， 还 可 以 了 解 各 系统 的 交易 情况 、 
分 析 客 户 行 为 特征 。 

1 ) 通过 各 种 网 络 渠道 ， 及 时 获取 各 种 与 商业 银行 相关 的 事件 ， 针 对 网 上 的 各 种 信息 及 
时 反应 。 

2) 通过 社会 渠道 ， 获 得 了 解 客户 对 商业 银行 的 评价 反应 ， 及 时 调整 和 优化 ， 维 护 商 业 
银行 的 形象 。 通 过 获取 网 上 信息 ， 及 时 了 解 行 业 动 态 ， 为 存 、 贷 葡 工 作 提供 数据 文 持 。 

3) 通过 客户 网 站 及 其 他 客户 披露 的 数据 ， 及 时 获取 客户 的 信息 。 

4) 通过 新 闻 媒 体 、 社 会 化 网 络 ， 及 时 获取 与 客户 相关 的 事件 ， 获 取 营 销 机 会 ， 规 避风 
险 等 。 

5) 通过 各 种 社交 网 络 (人 微 博 、 微 信 、 博 客 、 社 区 和 )， 获 知客 户 感 兴趣 的 热点 话题 ， 
了 解 客户 行为 ， 通 过 关注 客户 的 网 络 行为 ， 获 取 销 售 信息 。 
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6) 对 于 商业 银行 来 说 ， 可 以 利用 大 数据 技术 分 析 宏 观 的 经 济 变 化 ， 寻 找 信 用 优质 的 小 
微 企 业 等 内 容 。 

1. 在 大 数据 时 代 ， 大 数据 的 应 用 给 金融 行业 带 来 了 哪些 挑战 ? 

1) 金融 同行 业 的 竞争 开始 加 剧 ， 同 时 金融 脱 媒 产生 了 很 多 新 型 业态 ， 它 们 共同 参与 到 
金融 市 场 的 竞争 中 。 很 多 金融 机 构 都 在 向 综合 经 营 方向 发 展 ， 商 业 银 行 也 纷纷 发 行 各 自 的 金 
融 产品 和 理财 产品 。 

很 多 第 三 方 文 付 公司 通过 对 各 类 产品 的 创新 ， 蔡 代 了 大 量 的 银行 文 付 业 务 ， 逐 步行 食 银 
行 支付 结算 的 市 场 份 额 。 

2) 很 多 商业 银行 都 把 电子 银行 业务 当做 重要 的 交易 渠道 ， 它 具有 低 成 本 、 高 效率 的 特 
点 ， 大 大 减轻 了 银行 柜 面 的 压力 。 随 看 大 数据 时 代 的 来 临 ， 要 求 对 商业 银行 的 电子 渠道 进行 创 
新 ， 保 证 商业 银行 以 电子 渠道 为 基础 ， 逐 渐 扩 大 交易 渠道 ， 制 定 个 性 化 和 综合 性 的 银行 产品 。 

3) 在 大 数据 时 代 ， 商 业 银 行 传统 的 业务 价值 观 被 削弱 ， 要 求 银 行 可 以 提供 个 性 化 的 金 
融 服务 和 解决 方案 ， 提 高 客户 对 产品 和 服务 的 认同 度 。 目 前 来 说 ， 可 以 通过 收集 客户 的 社交 
网 络 信 息 ， 分 析 客 户 的 购买 力 和 偏好 ， 提 高 商业 银行 的 利润 率 。 

4) 在 大 数据 时 代 ， 很 多 互联 网 企业 从 网 络 购物 和 供应 链 服 务 转向 属于 传统 银行 业务 的 
文 付 、 清 算 等 领域 ， 对 商业 银行 的 传统 地 位 造成 挑战 。 商 业 银行 可 以 通过 全 场景 的 金融 解决 
方案 ， 为 客户 提供 资金 流 ， 整 合 银行 的 资源 ， 提 高 利润 率 。 

5) 在 大 数据 时 代 ， 商 业 银 行 的 人 慢 利 模式 有 很 多 ， 例 如 可 以 通过 银行 的 业务 赚 取 中 小 企 
业 的 利 县 收入 和 大 型 企业 的 中 间 业 务 收入 。 商 业 银 行 可 以 依赖 数据 服务 能 力 ， 为 客户 提供 电 
子 商务 解决 方案 和 财富 管理 服务 。 

6) 在 大 数据 时 代 ， 商 业 银 行 可 以 充分 利用 业务 数据 和 社交 网 络 数 据 。 通 过 集中 、 整 
合 、 挖 掘 和 共享 发 挥 数据 的 价值 ， 提 高 风险 管控 能 力 。 提 高 商业 银行 的 整体 管理 水 平 。 

我 们 总 结 来 说 ， 金 融 行业 普遍 存在 以 下 问题 : 数据 丰富 ， 但 是 知识 贫乏 ; 创新 动力 不 
足 ; IT 观念 落后 ; 人 才 苇 乏 ， 如 网 5-21 所 示 。 




































图 5-21 金融 行业 普遍 存在 的 问题 


2. 金融 行业 应 该 重视 大 数据 应 用 的 哪些 问题 呢 ? 
首先 应 该 加 强 对 数据 的 整合 工作 ， 改 进 数 据 的 处 理 染 构 ， 保 障 数据 的 安全 体系 ， 完 善 数 
据 的 运 维 体系 ， 最 后 加 强 对 专业 化 拉 术 团队 的 建设 ， 如 图 5-22 所 示 。 
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| 建设 


图 5-22 金融 行业 应 该 重视 大 数据 应 用 的 哪些 问题 


大 数据 的 应 用 还 可 以 作为 银行 创新 的 催化 剂 ， 引 导 银 行 对 业务 模式 的 弯曲， 推动 商业 银 
行 在 经 营 理 念 、 组 织 染 构 、 业 务 流程 上 进行 全 面 调整 ,不 汤 增 强 核心 范 争 力 ， 提 升 运 演 效 
率 。 大 数据 为 商业 银行 提供 了 重要 的 战略 发 展 契 机 。“ 大 数据 ”对 于 银行 的 作用 主要 表现 在 
以 下 几 个 方面 ， 如 图 5-23 所 示 。 


EE 
大 数据 ”对 于 银行 的 作用 








对 风险 和 欺诈 
进行 洞察 


拓宽 商业 银行 的 业务 领 
域 ， 加 速 产 品 的 创新 





图 5-23 “大 数据 ”对 于 银行 的 作用 


(1) 对 客户 的 消费 趋势 进行 预测 

商业 银行 可 以 利用 大 数据 技术 对 客户 的 消费 趋势 进行 预测 ， 同 时 增强 对 客户 的 细 分 和 市 
场 趋势 的 分 析 力 度 。 例 如 ， 我 们 可 以 基于 人 口 统计 特征 ， 通 过 查询 客服 、 银 行 柜 员 的 记录 ， 
以 及 各 种 网 站 的 点 击 流 和 客户 的 支付 历史 等 信息 ， 对 客户 行为 进行 洞察 。 

(2) 对 风险 和 欺诈 进行 洞察 

利用 大 数据 技术 ， 商 业 银行 可 以 对 风险 和 欺诈 进行 洞察 。 例 如 ， 可 以 利用 财务 风险 分 
析 、 贷 款 风险 评估 、 实 时 欺诈 检测 等 手段 。 通 过 各 种 社交 媒体 、 市 场 新 闻 ， 获 取 对 银行 客户 
和 潜在 客户 的 洞察 ， 以 提高 对 各 种 风险 的 预测 水 平 。 

(3) 评估 商业 银行 的 服务 质量 和 客户 满意 度 

利用 大 数据 技术 ， 可 以 评估 商业 银行 的 服务 质量 和 客户 满意 度 。 例 如 ， 通 过 与 客户 的 会 
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谈 、 录 音 等 各 种 交互 记录 ， 识 别 客户 的 问题 ， 以 此 提高 服务 的 质量 和 客户 的 满意 度 。 

(4) 开展 精准 营销 

商业 银行 可 以 利用 大 数据 技术 开展 精准 彰 销 以 提高 利润 ， 降 低 成 本 。 同 时 扩展 了 营销 的 
手段 ， 从 网 点 坐 售 、 电 话 营 销 扩 展 到 短信 、 微 讲 和 微 信 等 平台 ， 如 图 5-24 所 示 。 
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图 5-24 营销 的 手段 

(5) 提高 商业 银行 的 管理 水 平 

利用 大 数据 技术 ， 提 高 商业 银行 的 管理 水 平 。 实 现 “ 以 数据 资 话 ”， 为 银行 的 市 场 营 
销 、 资 产 负 俩 管理 、 客 户 关 系 管 理 等 方面 提供 决策 文 持 。 

(6) 折 宽 商业 银行 的 业务 领域 ， 加 速 产品 的 创新 

利用 大 数据 技术 ， 可 以 拓宽 商业 银行 的 业务 领域 ， 加 速 产 品 的 创新 。 人 例如， 社交 媒体 为 
商业 银行 创造 了 新 的 客户 接触 渠道 ， 从 银行 网 点 、ATM 等 固定 设备 扩展 到 移动 终端 设备 ， 
甚至 扩展 到 微 睛 、 微 信 等 社交 网 络 。 洪 道 的 创新 也 引起 对 银行 文 付 模 式 的 创新 ， 从 传统 文 
付 、 电 子 文 付 和 第 三 方 支付 过 渡 到 移动 文 付 上 来 ， 如 图 5$-25 所 示 。 





网 点 坐 售 渠道 的 创新 
胃 别 


滴 莘 尝 人 多亏 洒 
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图 5-25 拓宽 商业 银行 的 业务 领域 
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当 客 户 与 银行 发 生 交 易 的 时 候 ， 会 产生 大 量 的 数据 ， 这 些 数据 为 银行 进行 有 针对 性 的 
营销 创造 了 机 会 。 因 为 数据 隐 含 看 大 量 的 信息 ， 所 以 我 们 最 主要 的 工作 就 是 将 这 些 信息 挖掘 
出 来 ， 并 且 加 以 利用 。 

在 大 部 分 的 应 用 中 ， 随 春 数 据 量 的 指数 级 增长 ， 特 别 是 一 些 非 结构 化 效 据 的 快速 增长 ， 
这 些 海 量 的 数据 会 导致 数据 分 析 的 时 间 延 长 ， 传 统 的 商业 智能 发 展会 出 现 “ 瓶 儒 ”， 而 在 大 
数据 时 代 ， 这 些 问 题 会 成 为 缺乏 为 客户 创造 价值 的 动因 。 

在 很 长 的 一 段 时 间 内 ， 银 行 的 多 数 应 用 都 是 建立 在 客户 与 银行 的 交易 过 程 中 ， 例 如 银行 
开户 、 存 球 和 取 球 等 业务 。 要 深 入 理解 客户 的 需求 ， 更 好 地 为 客户 服务 ， 仪 仅 依 赖 这 些 交 易 
数据 是 远 远 不 够 的 。 随 之 社会 的 发 展 和 科技 的 进步 ， 银 行 可 以 通过 多 种 途径 收集 客户 的 信 
上 县， 例如 在 一 些 移动 终 站 上 收集 客户 的 位 置信 息 ， 然 后 进行 有 针对 性 的 萌 销 。 在 大 数据 时 
代 ， 这 些 非 结构 化 的 数据 量 远 远 超 过 传统 的 结构 化 数据 量 。 

举例 来 次 ， 肝 银行 客户 进入 一 个 购物 广场 ， 在 茶 超 市 里 面 进行 了 一 笔 120 元 的 消费 ， 客 
户 信 息 是 : 30 岁 ， 女 性 ， 有 一 个 孩子 。 这 时 该 女士 会 收 到 一 条 短信 ， 提 示 她 刚 进行 了 一 笔 
120 元 的 消费 ， 可 以 在 茶 儿 童 商 店 章 受 $ 折 优 惠 一 次 ， 于 是 该 女士 很 有 可 能 会 给 孩子 灭 一 套 
衣服 或 者 一 双 鞋 千 。 该 流程 就 实现 了 大 数据 的 秒 级 萌 销 ， 如 网 5-26 所 示 。 





























客户 消费 
视图 结果 





商场 消费 信用 卡 业务 系统 数据 仓库 
图 5-26 大 数据 的 秒 级 营销 


随 看 互联 网 行业 的 发 展 ， 客 户 可 以 通过 互联 网 或 者 其 他 电子 渠道 去 发 表 目 己 的 一 些 看 
法 ， 甚 至 是 购买 商品 ， 这 些 动 作 都 会 为 商业 银行 收集 客户 的 信息 创造 了 条 件 ， 降 低 了 信息 的 
不 对 称 性 。 也 就 是 说 ， 在 以 前 ， 客 户 对 银行 的 情况 可 以 有 多 种 渠 让 去 激 和 了解 ， 但 是 银行 却 
很 难 深 入 了 解 客 户 的 需求 、 破 实 想法 和 自身 的 资金 实力 。 

日 前 来 说 ,很 多 商业 银行 可 以 收集 客户 在 互联 网 上 的 一 些 言 论 、 微 博 发 表 的 信息 和 购 闫 
商品 的 信息 ， 然 后 去 分 析 客 户 最 豆 欢 的 服务 和 产品 ， 包 括 客户 目 身 的 信用 信息 和 资金 实力 等 
内 容 ， 从 而 正确 理解 客户 ， 统 计 和 分 析出 一 些 商 机 ， 有 针对 性 地 进行 精准 彰 销 ， 并 且 更 好 地 提 
供 服务 。 这 也 为 商业 银行 实现 从 “以 业务 为 中 心 ” 回 “ 以 客户 为 中 心 ” 的 转变 提供 了 条 件 。 

对 数据 的 分 析 逐 渐 成 为 银行 实现 核心 业务 价值 的 重要 手段 之 一 ， 特 别 是 在 利率 市 场 化 阶 
段 ， 会 出 现存 款 的 稳定 性 降低 和 存 贷 葡 利 差 普 志 收 罕 的 情况 。 金 融 脱 媒 ， 导 致 大 量 客户 流失 
和 客户 的 忠诚 度 降低 。 银 行 如 何 为 客户 提供 个 性 化 的 服务 已 经 成 了 迫在眉睫 的 课题 之 一 。 因 
此 ， 银 行 需 要 进一步 提升 数据 分 析 的 能 力 ， 提 高 对 业务 的 洞察 力 。 

目前 一 些 商业 银行 的 数据 量 已 经 达到 了 几 十 TB 以 上 上， 特别 是 非 结构 化 数据 的 快速 增 
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长 ， 这 种 指数 级 的 增长 ， 对 数据 分 析 的 能 力 提 出 了 了 挑战。 特别 是 “金融 脱 媒 ”现象 越发 明 
显 ， 银 行 作为 “ 文 付 中 介 ” 的 垄断 地 位 已 经 动 播 ， 同 时 客户 对 银行 服务 的 要 求 越 来 越 高 。 
银行 业 这 个 长 期 以 来 一 直 变 化 绥 慢 的 行业 现在 应 该 放下 “ 染 子 ”， 太 时 且 更 加 全 面 深 入 了 解 
客户 的 基本 信息 和 属性 ， 对 客户 进行 精准 营销 ， 提 升 业 务 运行 效率 ， 逐 步 提 升 客户 体验 。 

举例 来 说 ， 商 业 银 行 可 以 基于 大 数据 的 分 析 和 和 碍 询 ， 特 别 是 收集 客户 的 地 理 环境 、 年 龄 
和 交易 喜好 信息 ， 有 针对 性 地 为 客户 提供 理财 产品 建议 和 提醒 ， 同 时 通过 对 大 数据 的 分 析 和 
挖掘 ， 评 佑 客户 的 信用 风险 和 资金 偿还 能 力 ， 降 低 银行 的 各 种 风险 ， 如 图 5-27 所 示 。 
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银行 员工 通过 CRM 系 统 查 
询 客户 历史 借 记 卡 和 信用 
卡 的 交易 信息 ， 分 析 客 户 








的 消费 行为 和 还 款 能 力 客户 的 社交 信息 
EE 
通过 社交 信息 分 析 客 户 的 还 款 能 力 和 消费 习惯 | 


图 5-27 降低 银行 的 各 种 风险 
忆 结 : 大 数据 分 析 可 以 实现 从 “以 业务 为 中 心 ” 辐 “以 客户 为 中 心 ”的 转变 ， 降 低 了 
言 县 的 不 对 称 性 。 
3. 大 数据 在 金融 行业 的 主要 应 用 
应 用 方式 如 图 5-28 所 示 。 








mh 


图 5-28 大 数据 的 主要 应 用 












(1) 客户 管理 
可 以 构建 客户 的 全 方位 分 析 ， 见 表 5-3，。 


表 5-3 构建 客户 的 全 方位 分 析 


客户 维度 名 称 基本 属性 
客户 基本 信息 客户 名 称 、 证 件 类 型 、 证 件 号 码 
客户 资产 信息 与 客户 资产 相关 的 信息 
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客户 维度 名 称 基本 属性 

客户 风险 信息 与 客户 相关 的 信用 评级 信息 等 内 容 

客户 财务 信息 客户 产生 的 利润 等 内 容 

客户 事件 信息 例如 提前 还 球 、 逾 期 等 信息 

客户 联系 信息 客户 主要 联系 信息 ， 包 括 家 庭 地 址 、 电 话 等 


哆 
I 
Bu 
一 > 人、 
lk 
[ 亚 


包括 存款 类 、 贷 款 类 等 信息 





客户 关系 信息 客户 经 理 与 客户 之 间 的 关系 
客户 信用 评级 客户 信用 卡 申 请 资料 、 客 户 的 信用 风险 等 级 


其 中 在 客户 信用 评级 中 ， 银 行 可 以 通过 收集 客户 信用 卡 申 请 资料 ， 分 析 客 户 的 信用 风险 
等 级 ， 帮 助 银行 业务 人 员 做 出 决策 。 特 别 是 国外 的 银行 机 构 ， 需 要 给 客户 多 高 的 利率 ， 是 根 
据 业 务 人 员 的 分 析 决 策 决定 的 ， 客 户 的 信用 评级 是 一 个 重要 参考 。 

在 客户 风险 信息 中 ， 银 行 可 以 收集 客户 的 基本 信息 、 地 理 环境 、 年 龄 、 交 易 信息 和 各 种 
信用 信息 ， 对 这 些 海量 数据 进行 分 析 和 挖掘 ， 评 估 客 户 的 信用 风险 和 资金 偿还 能 力 ， 降 低 银 
行 的 各 种 风险 。 

商业 银行 以 大 数据 为 应 用 ， 借 鉴 行业 先进 模型 ， 建 立 标准 体系 ， 保 证 数据 的 唯一 性 、 完 
整 性 和 共享 性 ， 同 时 商业 银行 也 应 该 制定 加 强 对 客户 数据 的 安全 保护 策略 。 

(2) 过 销 管理 社交 媒体 

传统 营销 一 般 采 用 一 对 多 的 方式 ， 这 种 针对 人 
群体 性 的 营销 ， 成 本 较 高 ， 同 时 准确 性 很 差 。 应 : | 
该 引入 大 数据 的 概念 ， 实 现 有 针对 性 的 智能 营销 ， 人 
如 图 5-29 所 示 。 0 ; ED m 

对 于 智能 营销 管理 中 的 与 情 分 析 来 说 ， 主 要 
包括 银行 声誉 分 析 、 银 行 品牌 分 析 、 银 行 服务 质 
量 分 析 、 竞 争 产品 分 析 、 产 品评 价 分 析 等 。 主 要 
是 跟踪 社交 媒体 的 评论 ， 了 解 影响 客户 的 关键 性 
问题 ， 产 生 潜在 的 客户 流失 预警 和 满足 客户 服务 
的 需要 。 也 可 以 长 期 跟踪 新 闻 热 点 ， 包 括 对 正 负 
面 报道 的 分 析 ， 以 提供 个 性 化 的 市 场 分 析 结果 。 

对 于 客户 与 市 场 洞 察 方面 ， 主 要 包括 银行 对 市 场 的 趋势 分 析 。 从 社交 媒体 、 市 场 新 闻 信 
息 中 提取 信息 ， 方 便 对 市 场 的 洞察 。 

对 于 运营 洞察 与 优化 ， 主 要 包括 系统 的 数据 保存 与 管理 、 系 统 日 志 维护 和 系统 故障 分 
析 。 对 于 数据 保存 与 管理 来 说 ， 是 通过 大 数据 平台 对 各 种 历史 报表 和 分 析 数 据 进行 保存 和 管 
理工 作 。 对 于 系统 日 志 维护 来 说 ， 是 为 了 实现 更 多 的 历史 数据 保存 和 更 好 的 分 析 能 力 。 对 于 
系统 故障 分 析 来 说 ， 主 要 目的 是 为 了 对 系统 的 故障 进行 预测 与 分 析 ， 从 而 更 好 地 提升 系统 的 


运营 效率 
二 局 人 多 全 。 
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图 5-29 有 针对 性 的 智能 营销 
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(3) 风险 类 管理 

通过 大 数据 技术 ， 可 以 实现 准确 、 融 效 的 风险 控制 ， 基 于 历史 数据 和 实时 数据 ， 实 现 欺 
诈 监 测 。 对 于 风险 与 其 许 洞察 ， 主 要 包括 财务 风险 分 析 、 市 场 与 组 合 风险 分 析 、 贷 款 风 险 评 
舍 分 析 、 反 洗钱 与 欺诈 调查 、 实 时 欺诈 检测 和 市 场 监督 等 内 容 ， 如 图 5-30 所 示 。 











财务 风险 分 析 


市 场 与 组 合 风 险 分 析 市 场 监 督 


贷款 风险 评估 分 析 实时 欺诈 检测 


反 洗 钱 与 欺诈 调查 


图 $-30 ”风险 类 管理 


1) 财务 风险 分 析 是 通过 评估 信用 风险 和 市 场 风 险 所 产生 的 详细 数据 进行 分 析 ， 目 的 是 
为 了 符合 监管 的 需要 。 

2) 市 场 与 组 合 风险 分 析 是 通过 大 量 的 历史 市 场 数 据 和 交易 数据 ， 实 现 更 多 的 实时 预测 
风险 分 析 。 

3) 贷 蒜 风险 评估 分析 是 从 巡 体 或 者 社会 公共 信息 中 提取 企业 客户 和 洲 在 客户 的 信息 ， 
以 提高 风险 预测 能 力 和 预警 能 力 。 

4) 反 洗 钱 与 欺诈 调查 是 提取 犯罪 记录 信息 、 法 律 数据 等 内 容 进行 欺诈 调查 的 分 析 。 

5) 实时 欺诈 检测 是 通过 大 量 的 欺诈 数据 进行 分 析 。 

6) 市 场 监督 是 通过 实时 交易 监控 实现 对 市 场 的 监督 作用 。 

大 数据 在 金融 行业 未 来 的 应 用 方向 

大 数据 在 金融 行业 未 来 的 应 用 可 能 会 很 多 ， 如 图 5-31 所 示 。 












协助 制定 个 性 化 利率 10 情 确 发 现 其 诈 行为 


大 数据 在 金融 行业 
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图 5-31 大 数据 在 金融 行业 未 来 的 应 用 方 回 
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在 大 数据 时 代 ， 商 业 银 行 需要 做 好 哪些 工作 呢 ? 

1) 在 日 常 运营 过 程 中 ， 商 业 银行 应 该 加 强 对 数据 的 管控 和 数据 处 理 。 其 中 ， 数 据 管控 
应 该 参考 标准 ， 保 障 数据 采集 的 准确 性 和 数据 应 用 的 可 视 化 。 尽 量 降低 银行 的 声誉 风险 。 

2) 商业 银行 应 该 提高 对 大 数据 应 用 的 文 持 力度 ， 同 时 实现 质 源 利用 的 最 优化 。 

3) 商业 银行 应 该 重视 对 大 数据 技术 人 才 的 培养 和 储备。 

“大 数据 时 代 ” 将 会 市 动 整 个 社会 交易 模式 的 变化 ， 未 来 更 多 的 客户 服务 将 在 互联 网 中 
进行 ， 特 别 是 对 于 商业 银行 来 说 ， 更 应 该 注重 挖 据 相 关 的 社交 媒体 信息 ， 拓 展 获取 客户 信息 
的 渠道 ， 使 之 成 为 银行 经 营 的 有 用 工具 ， 能 够 为 客户 提供 更 好 的 服务 。 


5.3.2 大 数据 在 其 他 行业 的 应 用 


大 数据 在 企业 的 应 用 主要 表现 在 以 下 几 个 方面 : 

1) 客户 全 方位 视图 ， 以 增强 企业 对 客户 的 了 解 。 

2) 进行 可 预测 的 运 维 分 析 。 

3) 通过 大 数据 技术 找 出 新 的 业务 模式 。 

4) 实时 风险 评估 ， 降 低 风险 管理 成 本 。 

总 结 来 说 ， 大 数据 在 企业 的 应 用 主要 体现 在 客户 全 方位 视图 、 运 维 分 析 、 找 出 新 的 业务 
模式 和 降低 风险 管理 成 本 等 方面 如 图 5-32 所 示 。 


客户 全 方位 视图 





















































找 出 新 的 业务 模式 -| SS 降低 风险 管理 成 本 


图 5-32 ”大 数据 在 企业 的 应 用 


大 数据 除了 在 金融 行业 的 应 用 外 ， 在 其 他 行业 里 面 有 哪些 应 用 呢 ? 

(1) 电力 行业 

电力 行业 可 以 利用 大 数据 技术 平台 分 析 和 预测 电力 维修 、 产 能 和 故障 原因 等 。 

(2) 医疗 行业 

在 医疗 行业 中 ， 医 院 可 以 通过 对 大 数据 的 应 用 ， 对 远程 病人 进行 监控 ， 尽 量 做 到 预防 保 
健 ， 从 而 有 效 地 降低 病人 的 住院 率 。 大 数据 在 医疗 行业 的 应 用 主要 是 分 析 全 部 的 数据 ， 而 不 
单纯 是 样本 数据 ， 分 析 数 据 的 目的 是 以 预防 和 预测 疾病 为 主 。 

例如 ， 对 传染 病 的 传播 趋势 进行 预测 ， 为 相关 卫生 机 构 提 供 快 捷 和 近似 的 流行 病 预 测 。 
大 数据 技术 可 以 支持 区 域 卫生 医疗 ,临床 决 策 文 持 ， 建 立 全 民 健 康 档案 ， 药 物 人 研发 ， 健 康 结 
果 分 析 等 。 同 时 还 可 以 利用 大 数据 技术 对 病人 进行 实时 监控 ， 提 前 发 现 病人 的 危险 情况 。 也 
可 以 实现 电子 病历 、 诊 疗 移动 化 、 千 意 医 院 等 。 

如 图 5-33 所 示 ， 健 康 中 心 利用 健康 管理 门户 网 站 对 每 个 家 庭 实 行 健康 监控 ， 同 时 提供 
各 种 远程 服务 ， 将 重要 的 信息 传送 给 医院 。 医 院 根据 这 些 信息 将 诊断 结果 再 传送 给 健康 中 
心 ， 健 康 中 心 依 据 这 些 诊断 结果 对 每 个 家 庭 提 出 健康 意见 。 以 上 过 程 正 好 形成 了 一 个 闭环 。 
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图 5-33 ”医疗 行业 大 数据 应 用 
(3) 电 商 行业 
电 商 行业 主要 关注 4 个 方面 的 内 容 : 东西 卖 给 谁 ? 去 哪里 找 客 户 ? 卖 给 客户 什么 东西 ? 
怎么 卖 ? 如 网 $-34 所 示 。 
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图 5-34” 电 商行 业主 要 关注 4 个 方面 的 内 容 


电 商 行业 使 用 大 数据 技术 的 目的 是 让 数据 分 析 替 代 直 觉 。 通 过 对 数据 的 分 析 得 到 信息 和 
知识 的 反馈 。 

举例 来 说 ， 对 于 有 很 多 休闲 时 间 的 老人 来 说 ， 他 们 非常 喜欢 安全 、 和 舒适 的 按摩 器 材 。 对 
于 按摩 器 材 厂商 来 说 ， 就 解决 了 “东西 卖 给 谁 ” 的 问题 。 

通过 大 数据 平台 ， 对 用 户 的 行为 进行 预测 ， 这 就 解决 了 “怎么 卖 ”的 问题 。 而 对 于 某 
种 商品 有 特殊 需求 的 客户 ， 他 们 往往 更 看 重 商 品 的 质量 和 品质 ， 其 次 才 会 考虑 价格 的 因素 ， 
这 就 解决 了 “ 卖 给 客户 什么 东西 ”的 问题 。 

很 多 女性 喜欢 母 婴 类 物品 购物 网 站 ， 很 多 电 商 可 以 为 这 些 客 户 推 送 广 告 ， 这 就 解决 了 
“去 哪里 找 客户 ”的 问题 。 
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(4) 交通 行业 

大 数据 平台 主要 分 析 交 通 状态 信息 、 地 理 信息 、 鸣 力 分 布 信息 、 交 通信 息 控制 、 和 车辆 检 
测 记录 、 查 询 统 计 、 实 时 交通 信息 采集 、 交 通 流 实时 信息 、 交 通 流量 统计 
和 调度 包括 各 种 的 交通 信息 服务 、 短 信和 提示 、 寿 载 导 航 信息 、 热 线 、 交 通 基础 信息 服务 、 动 
态 交 通信 息 服务 等 。 

如 图 5-35 所 示 ， 交 通行 业 就 是 利用 大 数据 的 技术 ， 通 过 收集 交通 基础 设施 数据 、 实 时 
交通 检测 数据 、GPS 汽车 定位 数据 ， 进 行 数据 的 整合 、 分 类 ， 并 加 载 到 数据 仓库 中 。 然 后 ， 
在 此 基础 上 ， 进 行 数据 分 析 ， 并 将 分 析 结 采 青 传送 给 交通 指挥 及 调度 系统 。 
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图 5-35 交通 行业 


(5) 智 甘 城 市 
智慧 城市 主要 包括 智能 城市 交流 、 应 急 指控 系统、 区域 医疗 系统 、 教 育 信息 化 。 涉 及 的 
大 数据 技术 包括 云 计 算 技术 、 物 联网 技术 和 信息 安全 技术 。 通 过 整合 城市 的 信息 资源 ， 建 设 
城市 的 劳动 社会 保险 、 电 子 商务 、 电 子 政务 ， 使 得 城市 更 加 智能 化 。 

建设 智慧 城市 的 难点 是 : 信息 孤岛 严重 、 缺 乏 有 效 的 管理 。 这 样 会 导致 重复 建设 严重 ， 
缺乏 安全 、 完 整 和 科学 的 城市 建设 体系 。 

建设 智慧 城市 的 原则 是 : 创新 、 高 效 服务 、 宜 居 、 人 和 便利、 健康、 绿色 、 安 全 、 智 能 和 信 
息 共 享 。 具体 的 内 容 包 括 市 民 管 理 服务 、 社 会 保险 、 交 通 、 医 疗 、 公 共管 理 、 企 业 管 理 、 行 
政审 批 、 纳 税 、 企 业 年 检 、 就 业 和 城市 物流 等 方面 。 

(6) 其 他 领域 

其 他 行业 ， 例 如 国防 安全 ， 可 以 利用 大 数据 技术 进行 情报 分 析 、 恤 情 分 析 等 。 对 于 证 券 
业 ， 可 以 支持 对 异常 行为 的 监测 功能 ， 同 时 支持 商业 决策 。 对 于 电信 行业 ， 还 可 以 进行 网 络 
监控 分 析 、 客 户 流 失 率 分 析 等 。 

大 数据 在 其 他 行业 的 应 用 很 多 ， 还 包括 智慧 乡村 、 稼 慧 小 区 、 数 据 化 城市 管理 、 情 感 分 
析 、 社 交 CRM/ 网 络 分 析 、 社 交 媒 体 分 析 、 价 格 优 化 分 析 、 客 户 行为 分 析 、 影 响 力 分 析 等 。 
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小 结 


e 据 IBM 公司 预测 ， 到 2020 年 ， 全 世界 产生 的 数据 规模 将 达到 目前 数据 量 的 44 倍 ， 在 
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这 些 数据 中 ， 只 有 1% ~5% 的 数据 是 结构 化 数据 ， 这 意味 着 非 结构 化 数据 和 半 结 构 
化 数据 将 占据 绝 大 部 分 。 

e 大 数据 是 指 巨 量 的 信息 ， 规 模 巨大 ,已 经 无 法 用 常规 的 软件 工具 在 短 时 间 内 进行 存储 
和 管理 。 大 数据 的 主要 功能 就 是 预测 ， 可 以 将 算法 应 用 到 海量 的 数据 中 ， 预 测 事件 发 
生 的 可 能 性 。 但 是 我 们 不 要 拘泥 于 大 数据 的 概念 。 

e 大 数据 在 金融 、 互 联网 的 应 用 非常 广泛 ， 这 些 企 业 在 日 常 运营 过 程 中 产生 了 大 量 的 数 
据 ， 尤 其 在 人 口 众多 的 国家 ， 大 数据 的 应 用 更 为 广泛 ， 通 过 这 种 挖掘 和 利用 大 数据 的 
能 力 ， 可 以 大 大 提高 服务 的 水 平 。 

e 国内 大 数据 应 用 的 基本 现状 都 较为 复杂 ， 目 的 是 为 了 追求 大 数据 技术 而 进行 各 种 大 数 
据 项 目的 建设 ,这 样 可 能 会 导致 很 多 企业 “ 掉 进 ”以 技术 为 导向 的 误区 。 大 数据 的 
项 目 必 须 有 明确 的 业务 需求 ， 用 商业 思维 来 推动 大 数据 的 建设 ,只 有 这 样 ， 大 数据 的 
价值 才能 充分 体现 出 来 。 

e 在 大 数据 时 代 ， 我 们 面临 哪些 挑战 : 

1) 企业 或 者 银行 将 数据 的 重要 性 提升 一 个 层次 。 

2) 大 数据 管理 上 的 成 本 大 大 提高 。 

3) 产品 创新 不 足 。 

4) 数据 整合 和 数据 质量 管理 的 难度 很 大 。 

5) 一 些 企业 和 银行 在 数据 利用 上 有 一 定 的 局 限 性 。 

6) 应 用 与 理论 研究 的 成 本 很 高 。 

7) 业务 需求 和 技术 之 间 的 协调 。 

8) 人 才 方 面 储备 不 足 。 

e 对 于 中 国企 业 来 说 ， 大 数据 技术 的 研发 和 投入 相对 较 少 ， 目 前 很 多 企业 没有 利用 好 大 
数据 。 大 数据 的 发 展 对 于 我 们 的 启示 是 : 必须 把 握 好 大 数据 技术 ， 推 进 企 业 的 转型 创 
新 。 同 时 需要 企业 制定 新 的 大 数据 人 才 战 略 ， 以 价值 体系 激励 员工 。 培 养 洞察 分 析 的 
能 力 ， 以 个 性 化 服务 去 赢得 客户 。 

e 对 于 商业 银行 来 说 ， 为 了 保证 在 金融 市 场 的 竞争 地 位 ， 将 数据 转化 为 可 以 洞察 的 信息 
和 知识 ， 推 动 业 务 的 发 展 ， 提 升 管 理 的 效率 。 同 时 随 着 移动 终端 技术 的 发 展 和 应 用 ， 
已 经 改变 了 客户 的 消费 模式 。 如 果 从 数据 的 角度 来 看 ， 我 们 其 实 已 经 进入 到 了 大 数据 
时 代 。 

e 虽然 目前 大 数据 没有 明确 的 定义 ， 但 是 我 们 每 天 都 在 产生 海量 的 数据 ， 数 据 将 我 们 
“包围 ”起 来 ， 我 们 正在 进入 到 “大 数据 时 代 ”。 根 据 Gartner 的 定义 ， 大 数据 的 特征 
具体 涵盖 了 称 为 4V 的 内 容 : 数据 量 大 (Volume) 、 数 据 多 样 化 (Variety) 、 实 时 性 强 
(Velocity) 、 商 业 价 值 (Value ) 。 

e 我 们 总 结 来 说 ， 大 数据 的 定义 就 是 通过 快速 采集 、 挖 掘 和 分 析 ， 从 大 数据 量 多 样 化 的 
数据 中 获取 价值 。 形 象 地 说 ， 大 数据 就 是 沙里 淘金 的 过 程 。 

e 对 于 大 数据 来 说 ， 有 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 三 种 类 型 。 

e 大 数据 分 析 平 台 主 要 包含 : 大 数据 基础 平台 、 平 台 组 织 团 队 、 数 据 管控 和 应 用 系 
务 和 二 5 

e 大 数据 对 于 系统 的 需求 涵盖 了 “三 高 一 低 ”: 高 性 能 、 高 存储 、 高 扩展 和 低 延 迟 。 
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e 对 于 云 计算 来 次 ， 相 当 于 提供 一 个 快捷 的 海量 数据 的 平台 ， 它 为 数据 提供 了 访问 、 管 
理 的 染 直 和 场所 ， 它 本 质 上 就 是 利用 数据 处 理 技术 实现 各 种 业务 模式 。 

e 在 大 数据 时 代 ， 有 一 些 代 表 性 的 例子 ， 例 如 银行 可 以 根据 对 客户 的 更 深入 了 解 ， 提 供 
有 个 性 化 的 服务 。 还 可 以 进行 相关 的 热点 分 析 、 犯 罪行 为 分 析 、 多 渠道 的 客户 分 析 ， 
天 气 预 测 告 党 分析、 交通 拥堵 预测 分 析 等 。 

e 近 几 十 年 ， 随 着 计算 机 技术 的 发 展 ， 信 息 已 经 积累 到 了 一 定 程度 ， 它 比 历史 上 任何 一 
段 时 期 充斥 着 的 信息 都 多 ， 而 且 数 据 的 增长 已 经 达到 了 前 所 未 有 的 速度 。 对 于 中 国企 
业 来 说 ， 应 该 利用 大 数据 ， 将 传统 模式 转变 成 以 数据 服务 为 核心 的 商业 模式 。 
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第 6 章 ”数据 治理 体系 

本 章 目标 

通过 前 儿童 的 学 习 ， 我 们 已 经 理解 了 数据 架构 的 基本 知识 和 相关 案例 ， 同 时 了 解 了 大 数 
据 的 架构 实践 。 为 了 提升 数据 染 构 各 个 层次 的 管控 及 其 协作 能 力 ， 我 们 同样 需要 理解 数据 治 
理 方 面 的 知识 。 

在 本 章 中 ， 我 们 将 重点 学 习 数 据 治理 方面 的 知识 ， 包 括 数据 治理 的 概念 、 数 据 治 理 建设 
的 关键 要 素 和 成 功 手段 、 数 据 治 理 建 设 的 意义 和 必要 性 、 数 据 标 准 的 定义 、 数 据 标 准 项 目 总 
体 规划 和 设计 、 数 据 质量 管理 总 体 规划 、 数 据 质量 管理 的 解决 办 法 、 元 数据 管理 的 设计 方法 
和 数据 生命 周期 的 设计 方法 等 内 容 。 

学 习 本 章 后 ， 读 者 将 掌握 : 

e 当前 企业 和 商业 银行 的 总 体现 状 和 面临 的 问题 

e 关于 相关 问题 的 改进 措施 

。 数据 治理 的 概念 

。 数据 治理 体系 框架 

。 数据 治理 建设 的 关键 要 素 和 成 功 手段 

。 数据 治理 建设 的 意义 和 必要 性 

。 数据 标准 的 定义 

。 数据 标准 的 分 类 和 应 用 价值 

。 数据 标准 体系 框 染 

。 如 何 推进 数据 标准 建设 的 实施 

。 数据 标准 项 目 总 体 规划 和 设计 

。 数据 标准 规划 方法 

。 数据 标准 实施 优先 级 

e 效 据 质量 管理 的 概况 

。 数据 质量 管理 总 体 规 划 

。 数据 质量 管理 的 解决 办 法 

。 数据 质量 管理 的 执行 

® 元 数据 管理 概况 

。 元 数据 管理 的 设计 方法 和 流程 

® 数据 生命 周期 概况 

。 数据 生命 周期 的 设计 方法 和 流程 
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6.1 数据 治理 体系 概述 


6.1.1 当前 企业 和 商业 银行 的 总 体现 状 和 面临 的 问题 


数据 是 企业 的 原始 材料 ， 也 是 金融 、 电 信 、 互 联网 等 行业 最 大 的 价值 来 源 之 一 ， 如 何 利 
用 这 些 数 据 ， 以 及 如 何 更 好 地 对 数据 进行 挫 气 ， 已 经 成 为 提高 企业 苋 争 力 最 重要 的 手段 
人 

1. 当前 企业 和 商业 银行 的 总 体现 状 

目前 来 说 ,很 多 企业 和 商业 银行 部 处 于 数据 治理 的 初级 阶段 ， 很 多 系统 的 数据 仍然 面临 
着 各 种 问题 ， 例 如 数据 不 一 致 、 不 完整 数据 质量 较 差 ， 甚 至 不 同 的 系统 之 间 采 用 的 数据 标 
准 规则 者 不一致， 这样 午 会 导致 数据 共 闻 成 本 的 上 升 和 数据 清洗 工作 量 大 大 增加 。 如 采 缺 乏 
对 这 些 数 据 的 有 效 管 理 ， 不 仅 会 造成 数据 的 价值 和 海 力 不 可 能 被 挫 气 出 来 ， 同 时 也 会 严重 影 
啊 企 业 的 利益 和 决策 。 对 于 这 些 问 题 ， 表 面 上 是 数据 的 问题 ， 但 是 更 深层 次 的 原因 是 对 数据 
管理 的 缺失 或 者 相关 制度 不 健全 ， 以 及 人 员 的 职责 划分 不 清晰 。 

举例 来 说 ， 对 于 数据 管理 缺失 的 问题 ， 为 了 保障 系统 能 够 采集 到 完整 、 真 实 和 有 效 的 数 
据 ， 在 进行 系统 建设 的 时 候 ， 必 须 通 过 数据 标准 给 予 规划 和 约束 。 对 于 令 人 头疼 的 数据 质量 
问题 ， 它 的 改进 也 是 一 个 长 期 的 过 程 ， 除 了 使 用 技术 手段 保障 数据 的 质量 外 ， 还 可 以 通过 对 
数据 的 管理 来 保证 数据 质量 问题 的 快速 解决 。 很 多 商业 银行 建立 数据 质量 管理 体系 和 数据 治 
理 机 制 ， 通 过 对 数据 质量 问题 的 预防 、 识 别 、 分 析 和 监控 等 活动 ， 满 足 数 据 质 量 管理 的 
要 求 。 

2. 企业 和 商业 银行 面临 的 问题 

对 于 多 数 企业 的 系统 建设 ， 总 会 暴露 出 一 些 弱 点 和 缺陷 ， 例 如 系统 多 、 数 据 标 准 不 
一 致 、 很 多 数据 难以 共享 等 问题 ， 这 对 核心 业务 系统 的 运行 效率 有 很 大 的 影响 。 所 以 对 
于 大 多 数 企 业 来 说 ， 应 该 着 眼 于 长 期 的 数据 治理 ,挖掘 数据 的 潜力 ， 为 企业 增加 业务 
价值 。 

对 此 ， 我 们 应 该 考虑 如 何 对 这 些 问题 进行 解决 。 


6.1.2 关于 相关 问题 的 解决 办 法 
关于 上 述 问题 ， 我 们 有 以 下 几 种 解决 办 法 ， 如 图 6-1 所 示 。 
J 





































落实 对 数据 治理 的 监督 】 


于 企业 的 监管 制度 


er 









适当 地 补充 


>、 监管 指标 


图 6-1 关于 上 述 问题 的 解决 办 法 
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(1) 落实 对 数据 治理 的 监督 

从 战略 角度 来 说 ， 对 数据 治理 的 监管 有 利于 实现 企业 的 科学 管理 和 可 持续 发 展 ， 例 如 可 
以 将 数据 质量 管理 纳入 到 企业 的 规章 制度 中 ， 建 立 数据 质量 管理 的 相关 政策 、 流 程 、 人 员 和 角 
色 和 职责 ， 确 立 数据 质量 管理 的 目标 ， 保 障 相 关 的 管理 部 门 和 人 员 对 数据 质量 管理 进行 有 效 
评估 和 检查 ， 同 时 落实 数据 质量 责任 制 。 

(2) 改进 企业 的 监管 制度 

将 监管 内 容 细 化 到 业务 流程 的 每 一 步 ， 建 立 有 效 的 激励 和 惩罚 制度 ， 并 且 按照 各 个 环 菠 
的 职责 要 求 ， 保 障 相 关 人 员 能 够 履行 职责 。 举 例如 下 : 

通过 建立 统一 的 数据 字典 ， 确 保 客户 、 产 品 和 机 构 等 基础 信息 的 名 称 、 定 义 、 来 源 的 一 
致 性 。 各 个 系统 之 间 可 以 建立 统一 的 数据 标准 ， 规 范 数 据 名 称 和 定义 ， 然 后 在 此 基础 上 ， 球 
步 健全 数据 仓库 ， 实 现 数据 的 标准 化 和 规范 化 。 同 时 保障 监管 标准 的 本 地 化 ， 贴 近 监 管 的 实 
际 情 况 ， 做 好 监管 数据 治理 的 顶层 设计 ， 从 而 引导 企业 的 高 层 领导 从 战略 遍 度 认识 数据 治理 
对 于 企业 的 管理 转型 和 可 持续 发 展 的 作用 ， 然 后 将 数据 治理 纳入 到 公司 的 规章 制度 中 。 对 于 
高 管 层 来 说 ， 应 该 确立 数据 治理 的 目标 ， 建 立 机 制 和 流程 ， 明 确 职责 和 人 员 ， 通 过 各 种 审 
核 、 控 制 的 方式 保障 相关 部 门 对 数据 治理 的 评 佑 和 检查 ， 有 效 落 实 问 责 制 。 

(3) 适当 地 补充 监管 指标 

增强 对 核心 指标 的 验证 作用 。 

因此 ， 我 们 引出 了 数据 治理 的 概念 。 


6.1.3 数据 治理 的 概念 


数据 治理 是 一 侠 包 含 琐 略 、 原 则 、 组 织 结 构 、 管 理 制 度 、 流 程 以 及 各 种 相关 技术 工具 的 
管理 框架 。 它 是 数据 管理 与 应 用 行使 权力 控制 的 活动 集合 ， 在 数据 管理 与 应 用 层面 上 进行 规 
划 、 监 督 和 控制 。 数 据 治 理 是 为 数据 管理 、 应 用 与 服务 提供 保障 的 一 种 机 制 。 

换 句 话说 ， 数 据 治理 实质 上 就 是 治理 数据 的 政策 和 管理 的 方法 ， 具 体 应 该 落实 到 相应 的 
岗位 和 人 员 职 责 上 ， 通 过 业务 流程 和 数据 流程 的 规范 ， 把 数据 当成 核心 财富 。 如 果 将 数据 看 
做 矿山 的 话 ， 数 据 治理 就 是 具体 的 开采 方法 和 手段 ， 如 图 6-2 所 示 。 





























图 6-2 数据 治理 类 似 矿山 开采 的 方法 和 手段 
一 般 来 说 ， 数 据 治理 可 以 分 成 两 个 部 分 : 
1) 数据 的 保障 机 制 ， 包 括 政策 的 制定 ， 考 虑 使 用 何 种 机 制 、 流 程 和 工具 去 保障 数据 的 
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规范 性 。 

2) 需要 考虑 数据 的 质量 标准 和 数据 质量 的 任 责 体系 。 数 据 治理 是 企业 的 责任 ， 需 要 统 
一 的 解决 方案 和 治理 模型 来 保护 及 共 至 不 同 层 面 的 数据 。 

数据 治理 可 以 看 做 是 一 门 新 的 学 科 ， 能 够 把 企业 的 独立 系统 结合 起 来 ,重新 定义 数据 的 
价值 和 保护 机 制 。 从 技术 上 来 讲 ， 效 据 治 理 是 从 OLTP 系统 到 后 台 业 务 数据 库 ， 再 回 到 前 端 
的 一 个 财 环 的 过 程 。 一 般 来 资 ， 数 据 治理 可 以 解决 以 下 几 个 方面 的 问题 。 

1) 制定 完善 的 数据 管理 机 制 。 

2) 对 数据 进行 规范 化 、 标 准 化 和 制度 化 。 

3) 降低 数据 维护 的 难度 和 成 本 。 

对 于 商业 银行 来 说 ， 数 据 治理 主要 包括 建立 数据 治理 机 制 、 数 据 管理 制度 及 流程 ， 以 及 
对 数据 标准 的 制定 等 内 容 。 数 据 治 理 的 最 终 目 的 是 为 了 提升 数据 的 质量 ,通过 有 效 的 数据 整 
合 、 清 洗 、 应 用 和 对 外 服务 使 商业 银行 能 够 具备 真正 的 管理 能 力 和 元 争 能 


6.1.4 数据 治理 体系 框架 


对 于 数据 治理 体系 的 框架 结构 ， 可 以 包括 规划 、 机 制 、 治 理 专 题 和 对 象 、 实 现 4 个 部 
分 ， 如 图 6-3 所 示 。 


fT 和 建设 

















则 数据 治理 机 制 是 一 种 保障 ， 通 过 组 织 、 流 程 、 制 度 的 建设 和 执行 去 落实 








‖ 主要 包括 数据 质量 管理 、 数 据 标准 管理 、 元 数据 管理 和 数据 生命 周期 管理 等 内 容 


ii as 剧 。 开发 和 运 维 


图 6-3 数据 治理 体系 的 框架 结构 


数据 治理 规划 ， 数据 治理 的 工作 是 在 企业 战略 的 指导 下 进行 建设 。 

数据 治理 机 制 : 数据 治理 机 制 是 一 种 保障 ， 通 过 组 织 、 流 程 、 制 度 的 建设 和 执行 去 落 
灾 ， 其 中 数据 治理 的 机 制 是 核心 内 容 ， 数 据 治 理 的 执行 实质 上 就 是 数据 治理 机 制 的 落实 和 
邹 。 

数据 治理 专题 和 对 象 是 数据 治理 的 主要 工作 内 容 ， 主 要 包括 : 数据 质量 管理 、 数 据 标 准 
管理 、 元 数据 管理 和 数据 生命 周期 管理 等 内 容 。 

数据 治理 的 实现 ， 数据 治理 的 实现 包括 开发 和 运 维 等 内 容 。 
6.1.5 数据 治理 建设 的 关键 要 素 和 成 功 手段 

1. 数据 治理 建设 的 关键 要 素 

(1) 以 数据 标准 为 基础 

数据 标准 为 治理 体系 提供 了 基本 的 业务 层面 保障 ， 统 一 了 业务 含义 。 并 且 通 过 对 数据 使 
用 者 和 管理 者 的 角色 定义 ， 建 立 了 基本 的 数据 管理 任 责 体系 。 





将 将 




















127 


(2) 以 提高 数据 质量 为 核心 

数据 治理 实质 上 束 是 为 了 提升 企业 的 数据 质量 ， 提 高 企业 的 运营 效率 和 管理 分 析 的 能 
力 ， 从 而 最 大 化 地 实现 企业 的 业务 价值 。 保 证 数据 质量 是 数据 治理 工作 最 重要 的 出 发 点 
= 

(3) 明确 数据 治理 的 职责 

一 般 来 说 ， 数 据 治 理 是 企业 高 层 的 职责 ， 可 以 由 高 层 中 的 某 人 负责 全 企业 的 数据 治理 工 
作 ， 将 数据 治理 的 职责 赋 子 管理 层 的 茶 个 委员 会 ， 由 该 委员 会 确定 数据 治理 的 目标 和 上 原则， 
审核 数据 治理 的 相关 制度 、 流 程 ， 对 数据 治理 的 重大 问题 进行 决策 。 同 时 对 核心 数据 进行 分 
类 ， 为 每 类 数据 分 别 指定 相应 的 责任 部 门 和 责任 人 。 

数据 治理 建设 的 成 功 手 段 

数据 治理 建设 的 成 功 手段 主要 由 以 下 几 种 ， 如 图 6-4 所 示 。 
































区 确定 数据 治理 的 组 织 架 构 和 人 员 角 色 | 


医 明确 当前 数据 治理 的 现状 CR 


| 





医 制定 数据 治理 的 远景 目标 | 
提高 企业 对 数据 的 重视 程度 


降低 风险 


对 数据 治理 重新 评估 


图 6-4 数据 治理 建设 的 成 功 手段 


(1) 确定 数据 治理 的 组 织 架 构 和 人 员 人 角色 

首先 需要 明确 数据 治理 的 含义 是 什么 ， 以 及 规定 数据 治理 的 组 织 架 构 和 在 架构 中 的 各 个 
角色 应 该 承担 的 职责 是 什么 。 在 规定 的 数据 治理 管理 框架 下 ， 分 别 制定 每 个 数据 治理 对 象 的 
管理 办 法 。 例 如 ， 制 定数 据 标准 和 数据 质量 的 管理 办 法 。 同 时 ， 还 包括 它们 的 整体 管理 方 
针 、 组 织 架 构 划 分 、 职 能 角色 分 工 以 及 具体 的 工作 方法 、 实 施 细则 等 内 容 。 
(2) 明确 当前 数据 治理 的 现状 
明确 数据 治理 相关 的 人 员 组 织 架 构 ， 调 研 当前 的 数据 治理 现状 。 
(3) 制定 数据 治理 的 远景 目标 
当 明 确 数据 治理 的 现状 之 后 ， 可 以 由 数据 治理 相关 的 委员 会 牵头 制定 数据 治理 的 远景 目 
明确 数据 治理 在 几 年 后 达到 何 种 地 步 ， 然 后 制定 符合 实际 的 项 目 计 划 和 里 程 碑 。 
(4) 提高 企业 对 数据 的 重视 程度 
数据 不 是 一 种 普通 的 商品 ， 又 像 水 一 样 重要 ， 但 这 些 宝贵 的 财富 往往 会 被 企业 所 忽视 ， 
因此 ， 提 高 企业 对 数据 的 重视 程度 已 经 成 为 未 来 研究 的 必要 课题 。 

(5) 降低 风险 

了 解数 据 在 企业 的 使 用 情况 ， 研 究 数据 长 期 的 趋势 ， 分 析 过 去 事件 发 生 的 原因 ， 预 测 未 
来 数据 可 能 有 哪些 损失 ， 通 过 修改 当前 的 政策 和 管理 手段 ， 改 善 和 降低 各 种 风险 。 

(6) 对 数据 治理 重新 评估 

因为 企业 每 天 都 可 能 会 发 生变 化 ， 包 括 它们 的 组 织 机 构 、 人 员 和 角色 等 ， 它 们 的 数据 、 价 
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值 和 风险 也 可 能 会 发 生变 化 ， 所 以 当 企 业 的 组 织 机 构 、 流 程 和 机 制 发 生变 化 的 时 候 ， 应 该 对 
数据 治理 重新 评估 。 


6.1.6 ”数据 治理 建议 的 意义 和 必要 性 


数据 治理 建设 的 意义 ， 主 要 包括 : 对 风险 进行 预警 ， 理 解数 据 ， 提 高 数据 的 管理 能 
解决 安全 运营 和 风险 管理 等 需求 ， 保 证 数据 的 一 致 性 、 完 整 性 和 可 用 性 等 。 

我 们 在 了 解数 据 治理 的 基本 情况 后 ， 再 去 深入 理解 数据 治理 的 几 个 对 象 。 一 般 来 说 ， 数 
据 治 理 包 含 数据 标准 、 数 据 质 量 、 元 数据 管理 、 数 据 生命 周期 管理 等 内 容 。 

1. 数据 治理 建设 的 意义 

(1) 对 风险 进行 预警 

数据 治理 可 以 帮助 企业 或 者 商业 银行 对 各 种 风险 进行 预警 ， 从 而 发 挥 真 正 的 价值 。 

(2) 理解 数据 

数据 治理 可 以 帮助 企业 或 者 商业 银行 理解 并 解决 它们 需要 什么 数据 、 如 何 获取 等 一 系列 
问题 ， 只 有 这 样 才能 真正 实现 对 数据 的 决策 分 析 和 数据 治理 。 

(3) 提高 数据 的 管理 能 

目前 国内 商业 银行 的 目标 是 从 “以 账户 为 中 心 ” 回 “ 以 客户 为 中 心 ”进行 转 变 ， 经 

过 多 年 的 数据 积累 和 整合 ， 数 据 治 理 可 以 大 大 提高 商业 银行 的 数据 管理 能 

(4) 解决 安全 运营 和 风险 管理 等 需求 

数据 治理 可 以 解决 企业 或 者 商业 银行 的 安全 运营 、 风 险 管理 等 多 种 需求 。 

(5) 保证 数据 的 一 致 性 、 完 整 性 和 可 用 性 

数据 治理 体系 可 以 保证 数据 的 一 致 性 、 完 整 性 和 可 用 性 。 

数据 治理 是 保障 企业 和 商业 银行 安全 稳定 运营 的 基础 ， 特 别 对 于 商业 银行 来 说 ， 如 何 避 
免 数据 的 泄露 、 算 改 ， 保 证 数据 的 一 致 性 和 完整 性 是 实现 业务 连续 性 的 关键 。 

总 的 来 说 ， 数 据 治理 对 商业 银行 等 金融 机 构 尤 为 重要 : 

1) 数据 作为 商业 银行 或 者 企业 的 重要 资产 ， 相 当 于 人 体 的 血液 一 样 ， 是 非常 重要 的 。 

2) 高 质量 的 数据 ， 有 利于 管理 决策 层 进行 准确 的 分 析 。 

3) 数据 治理 有 利于 保护 核心 业务 数据 。 

在 了 解数 据 治理 的 基本 概况 之 后 ， 再 去 深入 理解 数据 治理 的 几 个 对 象 。 一 般 来 说 ， 数 据 
治理 包含 数据 标准 管理 、 数 据 质 量 管理 、 元 数据 管理 、 数 据 生 命 周期 管理 等 内 容 。 

2. 数据 治理 的 主要 对 象 

从 技术 上 来 说 ， 不 准确 的 数据 会 导致 系统 产生 更 多 的 压力 和 成 本 ， 特 别 是 很 多 数据 仓库 
项 目 因为 数据 质量 问题 而 导致 失 败 ， 所 以 降低 因为 数据 质量 问题 而 造成 的 损失 和 希望 得 到 
IT 投资 回报 是 实施 数据 治理 的 动力 。 对 于 企业 或 者 商业 银行 来 说 ， 在 交易 过 程 中 会 产生 大 
量 的 数据 ， 例 如 客户 基本 信息 、 各 种 业务 信息 和 系统 日 志 信 息 等 内 容 。 

数据 治理 工作 对 于 确保 银行 安全 、 稳 定 运 营 ， 实 现 业务 创 新 ， 具 有 重要 的 意义 。 数 据 治 
理 是 建立 数据 治理 机 制 ， 明 确 责 任 人 ， 建 立 数据 管理 制度 和 流程 的 过 程 。 

数据 治理 的 目的 就 是 为 了 提升 数据 架构 各 个 层次 的 管控 及 其 协作 能 力 。 数 据 架 构 为 数据 
治理 提供 基础 能 力 文 撑 ， 同 时 把 数据 当成 资产 去 管理 ， 将 价值 挖掘 出 来 。 

数据 治理 可 以 有 4 个 管控 机 制 : 政策 、 组 织 、 流 程 、 技 术 手 段 和 工具 。 
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对 于 企业 来 说 ， 无 论 是 数据 、 人 员 还 是 资产 ， 都 可 以 从 这 4 个 方面 进行 分 析 。 首 先 制定 
管理 政策 、 流 程 ， 建 立 管 理 组 织 ， 然 后 建立 一 个 管理 系统 或 者 平台 ， 接 着 把 相应 的 政策 、 组 
织 和 流程 固定 化 和 稳定 化 ， 再 通过 企业 的 管理 制度 去 保障 数据 治理 的 执行 。 

数据 治理 可 以 包含 4 个 领域 : 数据 标准 管理 、 数 据 质量 管理 元 数据 管理 、 数 据 生 命 周 期 
管理 。 这 4 个 领域 都 是 为 了 提升 数据 价值 。 

下 面 分别 介 绍 数据 标准 管理 、 数 据 质量 管理 、 元 数据 管理 和 数据 生命 周期 管理 等 相关 
内 容 。 

(1) 数据 标准 管理 

数据 标准 管理 主要 解决 系统 间 数 据 不 一 致 的 问题 。 通 过 建立 规范 、 政 策 体 系 、 组 织 、 管 
控 流 程 和 使 用 相应 的 技术 工具 来 保证 核心 数据 的 一 致 性 和 准确 性 。 数 据 标 准 是 企业 级 的 数据 
定义 ,全 企业 所 有 的 系统 都 应 该 人 遵守 和 执行 数据 标准 。 

(2) 数据 质量 管理 

对 于 数据 质量 管理 来 说 ， 可 以 使 用 技术 工具 或 者 管理 平台 把 可 能 引发 的 各 类 质量 问题 进 
行 修 正 ， 通 过 改善 和 提高 组 织 的 管理 水 平 ， 执 行 相关 的 政策 和 流程 ， 使 得 数据 质量 得 到 进 一 
步 提 高 。 

(3) 元 数据 管理 

元 数据 管理 主要 是 管理 数据 ， 告 诉 用 户 系 统 有 什么 数据 ， 以 及 如 何 去 管 理 数 据 。 它 
同样 通过 规范 、 政 策 体 系 、 组 织 、 管 控 流 程 和 使 用 相应 的 技术 工具 来 满足 对 元 数据 的 
管理 。 通 过 元 数据 管理 可 以 了 解数 据 的 变化 过 程 ， 包 括 这 些 变化 会 给 系统 市 来 什么 影 
吧 等 。 

(4) 数据 生命 周期 管理 

数据 生命 周期 管理 解决 的 是 系统 效率 问题 和 数据 存储 问题 。 首 先 可 以 划分 4 个 阶段 来 描 
述 数据 的 生命 周期 ， 包 括 : 数据 创建 、 数 据 使 用 、 数 据 归 档 和 数据 销毁 。 然 后 使 用 技术 工具 
或 者 管理 平台 解决 4 个 阶段 的 问题 。 通 过 改善 和 提高 组 织 的 管理 水 平 ， 执 行 相关 的 政策 ， 加 
强 对 数据 生命 周期 的 管理 。 

如 条 企 业 缺 少数 据 治 理 ， 则 会 产生 不 一 致 的 业务 定义 和 数据 格式 ， 间 接 寻 致 数据 的 准确 
性 差 ， 数 据 交 换 和 共享 的 成 本 高 ， 难 以 解决 各 种 复杂 的 问题 。 但 是 如 末 企 业 非 党 重视 数据 治 
理 ， 就 会 形成 统一 的 业务 定义 和 数据 格式 。 数 据 会 在 器 部 门 和 器 系统 间 得 到 共 圣 ， 对 数据 问 
题 形成 器 部 门 的 协调 解决 机 制 。 

下 面 从 政策 、 组 织 、 流 程 、 技 术 工 具 或 管理 平台 等 4 个 方面 对 数据 质量 、 数 据 生命 周 
期 、 数 据 标准 和 元 数据 管理 进行 分 析 。 

(1) 政策 

通过 制定 相应 的 政策 ， 明 确 部 门 的 贡 任 ,确定 数据 治理 在 各 个 领域 的 政策 、 规 郊 ， 通 过 
制定 政策 相应 的 去 规范 相关 人 员 的 行为 。 

(2) 组 织 

通过 建立 组 织 架 构 和 人 员 角 色 ， 确 定数 据 治理 相关 的 责任 人 ， 定 义 不 同 责任 人 的 角色 和 















































) 流程 


3 
通过 制定 数据 治理 各 个 领域 的 工作 方法 和 步 又 ， 确 定 相 关 人 员 的 分 工 和 合作 关系 。 


(4) 技术 工具 或 管理 平台 

通过 技术 工具 或 管理 平台 保证 数据 质量 的 管理 成 效 ， 支 持 数 据 标准 和 元 数据 的 发 布 和 查 
询 ， 以 及 对 数据 生命 周期 进行 管理 。 

1) 用 户 可 以 基于 数据 治理 的 成 束 度 ， 制 定数 据 治 理 体系 建设 的 发 展 路 径 ， 优 先 发 展 溥 
弱 环节 ， 遵 循 各 个 方面 均衡 发 展 的 原则 ， 保 证 应 用 的 健康 发 展 。 

2) 通过 数据 任 责 管 理 机 制 ， 建 立 数据 资产 的 管理 体系 。 把 数据 看 做 是 银行 或 者 企业 宝 
贯 的 资产 ， 通 过 建立 一 整套 的 管理 体系 ， 对 数据 进行 管理 和 访问 ， 从 而 建立 有 效 的 、 长 期 的 
数据 治理 体系 文化 。 

3) 在 业务 管理 和 经 营 过程 中 ， 使 各 个 部 门 的 人 员 都 能 够 体会 到 数据 的 作用 ， 从 而 推动 
数据 标准 管理 、 数 据 质 量 管理 、 元 数据 管理 和 数据 生命 周期 管理 的 建设 。 最 后 带动 业务 的 发 
展 ， 保 证 数据 管理 和 业务 应 用 相互 促进 ， 共 同 发 展 。 

下 面 分 别 叙述 数据 标准 管理 、 数 据 质量 管理 、 元 数据 管理 和 数据 生命 周期 管理 等 相关 
内 容 。 

















6.2 数据 标准 


6.2.1 数据 标准 概况 


一 、 数 据 标准 的 定义 

在 多 数 企 业 和 商业 银行 中 ， 几 乎 都 面临 者 相同 的 问题 : 如 何 提高 对 客户 的 服务 水 平 ， 如 
何 提高 商业 银行 或 者 企业 的 运营 效率 。 其 中 比较 有 代表 性 的 解决 办 法 就 是 采用 新 技术 ， 突 出 
目 生 特点 ， 从 而 吸引 客户 ， 同 时 建立 有 效 的 数据 治理 机 制 ， 利 用 已 经 积累 的 数据 进行 科学 化 
的 管理 。 

因为 大 多 数 企 业 和 商业 银行 的 业务 系统 都 是 独立 建设 的 ， 在 数据 共 孕 过程 中 ， 保 证 数据 
一 致 性 是 最 大 的 困难 ， 数 据 标准 体系 就 成 了 解决 这 个 问题 的 “救命 稻草 ” 。 数 据 标准 体系 为 
企业 或 者 商业 银行 的 数据 整合 提供 了 有 力 的 基础 文 持 。 有 具体 来 说， 数据 标准 体系 为 企业 建立 
了 标准 的 数据 定义 和 口径 ， 为 数据 共 至 提供 了 可 能 性 。 

那么 ， 什 么 是 数据 标准 呢 ? 

数据 标准 是 一 套 完 整 的 数据 规范 ， 是 数据 在 使 用 和 交换 过 程 中 ， 为 了 保持 数据 一 致 性 和 
准确 性 而 制定 的 规范 ， 它 主要 包括 数据 分 类 、 业 务 标准 和 技术 标准 的 详细 定义 。 数 据 标 准 是 
数据 治理 中 基本 的 业务 和 技术 层面 的 保障 。 

数据 标准 有 利于 企业 各 个 部 门 之 间 的 信息 共 圣 ， 它 是 数据 治理 重要 的 工作 方 呵 之 一 ， 通 
过 数据 标准 体系 的 制定 ， 有 利于 提升 数据 管理 的 水 平 ， 保 证 数据 质量 的 提高 ， 同 时 确保 核心 
数据 的 一 致 性 和 准确 性 。 

数据 标准 的 工作 内 容 主要 包括 以 下 两 个 方面 。 

(1) 对 数据 标准 分 类 的 划分 

如 有 果 按 照 数据 的 使 用 范围 ， 来 源 以 及 业务 逻辑 划分 ， 可 以 将 数据 标准 划分 成 基础 类 的 数 
据 标准 和 公共 类 的 数据 标准 。 其 中 基础 类 的 数据 是 通过 各 种 业务 处 理疗 生 的 基础 数据 ， 例 如 
客户 信息 、 产 品 信息 和 各 种 账户 信息 等 内 容 。 公 共 类 的 数据 是 在 基础 类 数据 的 基础 上 ， 按 照 

737 















































一 定 的 业务 规则 汇总 的 数据 。 

(2) 建立 数据 标准 的 基本 框架 

一 般 来 说 ， 基 础 类 的 数据 标准 是 标准 定义 的 重点 ， 可 以 参考 行业 内 先进 的 经 验 和 数据 模 
型 例如， 可 以 将 基础 类 的 数据 标准 划分 为 ， 客户、 产品 、 渠 道 、 交 易 和 活动 ， 如 图 6-5 
所 示 。 

工交 户 5 

通过 梳理 客户 相关 的 业务 流程 ， 获 取 关 于 客 
户 的 核心 数据 项 。 包 括 数据 项 的 组 成 、 分 类 、 业 
务 描述 和 技术 描述 等 内 容 。 

2) 产品 。 

通过 对 产品 的 标准 定义 和 分 类 ， 提 供 统一 的 
并 品 定义 和 产品 代码 等 内 容 。 

3) 渠道 。 站 

通过 对 渠道 的 分 类 ， 确 定 渠道 主要 的 信息 子 。 全 
类 以 及 该 信息 子 类 包含 的 数据 项 和 定义 等 内 容 。 








4) 交易 。 图 6-5 数据 标准 的 基本 框架 
通过 对 交易 的 分 类 ， 确 定 交 易 核心 的 信息 项 及 其 属性 。 
5) 活动 。 


根据 活动 的 流程 ， 定 义 活动 主题 的 信息 项 、 业 务 描述 和 技术 描述 等 内 容 。 例 如 ， 营 销 计 
划 、 营 销 方 式 、 营 销 内 容 等 信息 项 的 组 成 。 

二 、 数 据 标准 的 分 类 和 应 用 价值 

1. 数据 标准 的 整体 分 类 

从 整体 上 来 说 ， 数 据 标准 可 以 分 为 业务 数据 标准 和 技术 数据 标准 。 

(1) 业务 数据 标准 

业务 数据 标准 是 从 业务 层面 上 对 数据 的 统一 解释 和 要 求 ， 包 括 重要 数据 项 的 业务 含义 和 
该 数据 项 在 处 理 、 加 工 过 程 中 应 该 遵循 的 业务 规则 等 内 容 。 

从 业务 的 角度 来 说 ， 数 据 标准 又 可 以 分 成 基础 类 数据 标准 和 分 析 类 数据 标准 。 其 中 基础 
类 数据 是 企业 或 者 商业 银行 在 日 常 业务 中 产生 的 基础 数据 ， 同 时 按照 数据 所 属 的 业务 主题 ， 
进一步 划分 成 不 同 的 主题 ， 例 如 客户 、 产 品 、 协 议和 交易 等 。 对 于 分 析 类 数据 来 说 ， 是 为 了 
满足 企业 内 部 管理 的 需要 ， 在 基础 类 数据 的 基础 上 ， 按 照 分 析 规 则 进一步 加 工 而 成 的 。 

(2) 技术 数据 标准 

技术 数据 标准 是 从 技术 实现 层面 上 对 数据 的 统一 规范 和 定义 ， 包 括 字 段 长 度 、 数 据 格 式 
和 数据 默认 值 等 内 容 。 

从 技术 角度 来 说 ， 数 据 标准 可 以 分 为 结构 化 数据 标准 和 非 结 构 化 数据 标准 。 

2. 数据 标准 的 价值 

数据 标准 体系 的 建设 对 业务 部 门 和 技术 部 门 都 有 较 高 的 应 用 价值 ， 如 图 6-15 所 示 。 

(1) 数据 标准 对 于 业务 部 门 的 价值 

对 于 业务 部 门 来 说 ， 可 以 通过 对 数据 标准 的 定义 ， 梳 理 业务 需求 与 流程 ， 通 过 数据 标准 
确定 业务 需求 蓝本 ， 通 过 数据 标准 规范 业务 分 析 。 
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(2) 数据 标准 对 于 技术 部 门 的 价值 

对 于 技术 部 门 来 说 ， 在 系统 设计 中 可 以 直接 使 用 数据 标准 ， 在 开发 中 下 接应 用 数据 标准 
的 映射 信息 ， 还 可 以 根据 系统 建设 需求 提出 对 数据 标准 的 修正 要 求 。 

数据 标准 的 目的 就 是 在 系统 内 实现 数据 标准 的 统一 ， 同 时 能 够 为 外 围 系统 提供 标准 化 的 
服务 。 数 据 标准 可 以 促进 数据 质量 的 提高 和 数据 共享 ， 从 而 提高 整体 的 业务 运营 效率 和 IT 

三 、 数 据 标准 体系 框架 

1. 体系 框架 

数据 标准 的 体系 框架 可 以 包括 ， 文化 和 战略 ， 数 据 标准 内 容 ， 数 据 标准 制度 和 流程 ， 数 
据 标 准 的 组 织 和 角色 ， 数 据 标准 工具 。 

(1) 文化 和 战略 

文化 和 战略 包括 数据 标准 的 政策 、 原 则 、 沟 通 和 协作 、 宣 传 等 几 个 方面 。 政 策 、 原 则 主 
要 包含 数据 标准 的 战略 。 沟 通 和 协作 主要 包含 协调 机 制 和 沟通 机 制 。 宣 传 主要 包含 数据 标准 
的 推广 和 培训 计划 等 内 容 。 

(2) 数据 标准 内 容 

数据 标准 内 容 包 括 基 础 数据 标准 、 公 共 数 据 标 准 。 其 中 基础 数据 标准 是 比较 重要 的 ， 可 
以 包含 客户 数据 标准 、 产 品 数 据 标准 、 交 易 数 据 标准 、 堂 销 数 据 标 准 等 内 容 。 

(3) 数据 标准 制度 和 流程 

数据 标准 制度 和 流程 包括 管理 制度 、 管 理 流程 。 其 中 管理 制度 可 以 包含 数据 标准 管理 制 
度 、 数 据 标准 化 平台 管理 制度 。 管 理 流程 可 以 包含 数据 标准 的 新 建 流程 、 变 更 流程 、 复 审 流 
程 和 考核 流程 。 
(4) 数据 标准 的 组 织 和 角色 
数据 标准 的 组 织 和 角色 主要 包含 管理 组 织 和 核心 角色 。 其 中 管理 组 织 包括 信息 技术 委员 
、 数 据 治理 工作 组 。 核 心 角 色 包 括 数据 标准 决策 者 、 数 据 标准 管理 者 、 数 据 标准 业务 专 
、 数 据 标准 使 用 者 。 
(5) 数据 标准 工具 
数据 标准 工具 主要 包括 标准 管理 工具 和 标准 知识 库 。 其 中 标准 管理 工具 包括 标准 主题 管 
理 、 业 务 标准 管理 功能 、 技 术 标 准 管理 功能 和 标准 代码 管理 。 标 准 知识 库 包 括 外 部 监管 和 行 
业 最 佳 实践 ， 以 及 行业 最 佳 标准 化 案例 。 

数据 标准 的 体系 框架 如 图 6-6 所 示 。 

数据 标准 化 的 过 程 实质 上 就 是 数据 标准 设计 、 管 理 和 应 用 的 过 程 ， 目 的 是 为 了 统一 全 企 
业 核 心 的 业务 定义 和 技术 定义 ， 从 而 提升 企业 的 业务 规范 性 、 业 务 之 间 的 协作 能 力 和 数据 的 
质量 。 同 时 ， 用 户 可 以 参考 制定 数据 标准 的 依据 并 了 解数 据 标准 的 功能 。 

2. 制定 数据 标准 的 依据 

1) 数据 标准 的 制定 可 以 参考 外 部 的 标准 ， 例 如 一 些 国际 、 国 内 的 公共 标准 。 

2) 数据 标准 的 制定 应 该 参考 系统 的 数据 字典 和 公共 代码 。 

3) 数据 标准 的 制定 应 该 参考 业务 制度 和 一 些 管 理 条 例 等 。 

4) 数据 标准 的 制定 可 以 参考 先进 的 行业 经 验 。 
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文化 和 战略 数据 标准 内 容 四 数据 标准 制度 是 数据 标准 的 组 织 
和 流程 和 角色 


政策 、 原 则 | 国 基础 数据 标准 上 是。 管理 种 度 





数据 标准 工具 


国 标准 管理 工具 











图 6-6 数据 标准 的 体系 框架 


3. 数据 标准 的 功能 

1) 为 外 部 提供 标准 化 的 数据 服务 。 

2) 指导 跨 系 统 的 数据 整合 和 模型 设计 。 
3) 有 效 推动 跨 部 门 数 据 的 共 圣 。 


6.2.2 如何 推进 数据 标准 建设 的 实施 


数据 标准 建设 的 实施 主要 包括 以 下 几 个 方面 的 内 容 。 

1) 首先 ， 将 企业 战略 和 规划 作为 数据 标准 化 建设 的 指导 依据 之 一 。 

2) 然后 ， 通 过 合理 高 效 的 组 织 机 制 能 够 有 效 消除 业务 和 拉 术 之 间 的 隅 加 ， 从 而 有 效 地 
推动 数据 标准 的 落地 。 同 时 由 数据 标准 组 负责 制定 各 类 数据 标准 。 

数据 标准 管理 者 包括 ， 数据 标准 组 长 和 数据 标准 专家 等 。 对 于 业务 部 门人 员 和 反 术 部 门 
来 说 ， 他 们 都 是 数据 标准 的 使 用 着 和 执行 着。 数据 标准 管理 者 的 组 织 层 次 主要 为 决策 层 、 管 




















理 层 和 执行 层 。 
数据 标准 决策 层 主要 负责 审批 数据 标准 方案 ， 协 调 重 大 数据 标准 事件 ， 同 时 听取 汇报 和 
站 导 工作 。 


数据 标准 管理 层 主要 制定 、 维 护 数据 标准 化 的 政策 、 流 程 和 制度 等 内 容 。 协 调和 推动 数 
据 标准 问题 的 解决 。 

数据 标准 的 执行 层 主 要 包括 数据 标准 使 用 者 。 他 们 主要 参与 数据 标准 的 制定 ， 配 合 数据 
标准 管理 层 组 织 和 实现 数据 标准 的 落地 。 

为 了 保障 数据 标准 的 实施 落地 ， 在 开发 过 程 中 应 该 设置 相应 的 检查 点 以 保证 数据 标准 的 
执行 管理 。 

数据 标准 的 开发 流程 主要 包括 需求 阶段 、 设 计 阶 段 、 开 发 阶段 、 测 试 阶 段 和 上 线 阶段 ， 
如 图 6-7 所 示 。 

e 在 知 求 阶段 可 以 设置 检查 点 ， 由 需求 人 员 、 治 理工 作 组 相关 的 人 员 检 查 对 于 需求 的 描 

述 是 否 有 还 循 了 数据 标准 的 规范 。 
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e 在 设计 阶段 可 以 设置 检查 点 ， 由 测试 设计 阶段 
人 员 将 数据 标准 纳入 到 测试 计划 中 。 人 
e 在 上 线 阶 段 可 以 设置 检查 点 ， 由 数据 










治理 相关 负责 人 审核 系统 上 线 时 是 否 . ee 和 一、 pe 
遵循 了 数据 标准 规范 。 = 已 下 本 本 


。 建立 数据 治理 文化 体系 ， 证 数据 标准 
化 在 企业 各 个 部 门 之 间 得 到 广泛 
下 ee 





“0 - he 
3) 最 后 开展 数据 标准 化 的 专题 工作 ， .2m& 全 we 
包括 健全 数据 标准 的 管理 体系 ， 监 控 数 据 标 
准 的 执行 情况 ， 检 查 数据 标准 的 落地 实施 。 0 TA 





如 图 6-8 所 示 ， 我 们 应 该 建立 由 组 织 规划 、 制 度 、 技 术 和 专项 考核 等 多 种 因素 相 结合 
的 管控 机 制 ， 从 而 有 效 保障 数据 标准 管控 机 制 的 执行 。 


数据 标准 管控 机 制 |) 





图 6-8 数据 标准 管控 机 制 
(1) 组 织 规划 
完成 数据 标准 管理 制度 与 流程 体系 规划 ， 建 立 数据 标准 管控 组 织 。 


(2) 制度 
为 数据 标准 管控 机 制 的 执行 提供 制度 保障 。 
(3) 技术 


从 技术 层面 上 对 数据 标准 管理 系统 进行 建设 。 

(4) 专项 考核 

从 考核 层面 上 将 数据 标准 的 管控 机 制 纳 和 到 绩效 考核 体系 中 。 

完成 数据 标准 在 重要 系统 的 落地 工作 。 通 过 标准 的 落地 ， 实 现 数据 定义 的 统一 ， 促 
进 数据 的 集中 与 共享 ， 提 升 数 据 质 量 ， 文 持 业 务 的 发 展 。 数 据 标 准 在 重要 系统 的 落地 工 
作 主 要 包括 客户 数据 标准 的 落地 、 公 共 代 码 数 据 标准 的 落地 、 产 品 数据 标准 的 洲 地 ， 如 
图 6-9 所 示 。 

(1) 客户 数据 标准 的 落地 

由 多 个 系统 生成 客户 号 ， 可 能 存在 一 个 客户 多 个 客户 号 的 情况 。 当 客户 数据 标准 落地 
后 ， 对 于 新 增 的 客户 ， 统 一 客户 编写。 对 于 存量 的 客户 保留 5 位 或 者 6 位 的 编写。 客户 数据 
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标准 的 落地 可 以 统一 各 系统 的 客户 号 ， 作 为 客 
户 识别 的 依据 ， 为 客户 的 归并 打 好 基础 ， 有 利 
于 建立 统一 的 客户 视图 ， 实 现 “ 以 客户 为 中 
心 ”的 目标 。 

(2) 公共 代码 数据 标准 的 落地 / 

公共 标准 代码 同步 到 多 个 系统 中 ， 可 以 降 ~ 
低 代 码 维护 的 工作 量 和 系统 的 复杂 度 ， 提 高 数 
据 的 一 致 性 和 准确 性 。 

(3) 产品 数据 标准 的 落地 

产品 数据 标准 可 以 规范 产品 的 分 类 ， 有 利 图 6-9 数据 标准 在 重要 系统 的 落地 工作 
于 提高 产品 的 数据 质量 。 


6.2.3 数据 标准 项 目 总 体 规划 和 设计 


一 、 数 据 标准 体系 总 体 规划 的 指导 原则 
数据 标准 体系 总 体 规划 的 指导 原则 ， 如 图 6-10 所 示 。 


公共 代码 数据 标准 
的 落地 


客户 数据 标准 ssP 产品 数据 标准 
的 落地 : 的 落地 















帮助 业务 人 员 和 技术 


数据 标准 的 各 个 阶段 均 
; 人 员 梳 理 业务 流程 


由 业务 作为 驱动 





图 6-10 数据 标准 体系 总 体 规划 的 指导 原则 


1) 数据 标准 的 各 个 阶段 均 由 业务 作为 驱动 。 可 以 建立 数据 标准 管理 机 制 ， 包 括 每 个 阶 
段 的 主题 以 及 未 来 沙 地 的 方向 ， 同 时 对 各 个 主题 进行 定义 。 

2) 帮助 业务 人 员 和 技术 人 员 梳 理 业 务 流程 。 因 为 数据 标准 的 主题 模 跨 业务 的 方 方 面 
面 ， 所 以 数据 标准 可 以 帮助 业务 人 员 和 技术 人 员 明 确 业 务 规则 ， 梳 理 业 务 流程 。 

二 、 数 据 标准 的 规划 方法 设计 

数据 标准 的 规划 方法 可 以 参考 国内 外 先进 的 实 距 经 验 ， 并 且 绪 合 具 有 行业 先进 水 平 的 逻 
辑 模型 以 及 专家 的 经 验 。 

(1) 数据 标准 规划 方法 

数据 标准 体系 建设 的 规划 方法 可 以 名 循 业界 先进 的 方法 论 ， 通 过 调研 、 规 划 访 谈 、 数 据 
标准 现状 分 析 ， 了 人 解 业 务 部 门 对 数据 标准 的 期 每 和 想法 ， 将 数据 标准 的 需求 转化 成 业务 人 员 
可 以 理解 的 文档 ， 建 立 数据 标准 管理 相关 的 治理 架构 和 管理 流程 。 数 据 标 准 规划 的 过 程 如 
图 6-11 所 示 。 

(2) 数据 标准 实施 优先 级 

数据 标准 实施 的 优先 级 需要 考虑 实施 的 迫切 程度 、 实 施 的 难 易 程度 和 业务 关注 程度 等 3 
个 方面 。 
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对 现 有 系统 的 数 | 建立 公共 代码 的 | 通过 公共 代码 数 
据 标准 进行 梳理 据 标准 的 建立 ， 
为 系统 提供 服务 





图 6-11 数据 标准 规划 的 过 程 





1) 实施 的 迫切 程度 。 通 过 对 各 部 门 领导 的 访谈 和 其 他 调研 工作 ， 了 人 解 业务 部 门 在 发 展 
过 程 中 关于 数据 标准 方面 过 到 的 挑战 和 困难 。 对 于 那些 挑战 难度 较 大 、 困 难 较 多 的 主题 ， 在 
实施 顺序 上 会 优先 进行 考虑 。 

2) 实施 的 难 易 程度 。 数 据 标准 实施 的 难 易 程度 主要 是 指 从 标准 的 现状 ,例如 数据 不 一 
致 的 程度 、 整 合 的 难度 等 方面 目下 加 上 地 考 夸 数据 标准 的 实施 次 序 。 

3) 业务 关注 程度 。 业 务 关 注 程 度 是 由 业务 部 门 针 对 数据 标准 的 重要 性 组 合 而 成 的 ， 回 
答 了 对 各 目 领 域 的 数据 标准 主题 的 关注 程度 。 

三 、 数 据 标准 定义 方法 设计 

数据 标准 定义 方法 设计 主要 包括 : 数据 标准 分 类 、 定 义 数 据 标准 的 流程 ， 如 图 6-12 
所 未 。 














数据 标准 分 类 定义 数据 标准 的 流程 





图 6-12 数据 标准 定义 方法 


1) 数据 标准 分 类 。 

基础 数据 标准 是 数据 标准 定义 的 重点 。 根 据 行业 经 验 和 人 金融 建 模 的 方法 论 ， 商 业 银 行 基 
而 数据 标准 按照 数据 主题 可 以 划分 为 客户 、 产 品 、 客 户 资 产 、 员 工 与 机 构 、 账 户 、 党 销 活 
动 、 交 易 、 渠 道 、 财 务 和 地 理 位 置 。 这 些 数据 主题 既 披 此 独立 ， 又 互相 关联 。 可 以 参考 业界 
先进 的 逻辑 金融 模型 ， 如 图 6-13 所 示 。 

基础 数据 的 标准 定义 框架 包括 业务 主题 、 基 础 信息 类 、 信 息 子 类 及 其 业务 属性 和 技术 属 
性 。 所 请 业务 属性 是 根据 现状 ， 对 客户 、 产 品 、 渠 道 、 内 部 机 构 、 协 议 、 地 域 、 财 务 、 事 件 
和 资产 在 内 的 几 大 主题 进行 定义 ， 并 对 每 个 主题 的 重要 信息 类 和 子 类 进行 业务 规则 说 明 。 技 
术 属 性 定义 为 数据 在 应 用 层面 上 的 技术 要 求 ， 包 括 数据 长 度 和 格式 要 求 等 。 

在 业务 需求 和 数据 整合 方面 ， 可 以 将 业务 和 业务 之 间 的 关系 抽象 成 数据 之 间 的 关联 关 
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客户 地 理 位 管 


企业 或 者 个 人 客户 


银行 和 客户 之 间 为 
某 种 服务 和 产品 运 
成 的 一 种 约定 


银行 和 客户 之 间 
交流 的 渠道 





图 6-13 ”业界 先进 的 逻辑 金融 模型 


系 。 例 如 ， 商 业 银 行 的 业务 数据 可 以 抽象 成 客户 、 产 品 、 渠 道 、 内 部 机 构 、 协 议 、 彰 销 、 地 
域 、 财 务 、 事 件 和 资产 等 几 大 主题 。 而 商业 银行 的 业务 领域 ， 例 如 存 贷款 、 信 用 卡 业 务 、 国 
际 业 务 、 票 据 业 务 和 投资 理财 业务 等 内 容 都 可 以 包含 在 这 几 大 主题 之 中 。 

通过 这 几 大 主题 中 对 业务 的 描述 ， 可 以 将 银行 所 有 的 业务 整合 起 来 ， 例 如 可 以 为 客户 关 
系 管理 、 风 险 管 理 、 绩 效 分析 、 产 品 管理 分 析 、 渠 道 分 析 和 利润 贡献 度 分 析 提 供 重 要 的 参 
考 。 对 于 基础 信息 类 来 说 ， 它 是 对 业务 数据 的 高 度 概 括 ， 例 如 客户 信息 、 产 品 信息 和 渠道 信 
息 等 ， 我 们 把 这 些 由 于 围绕 业务 领域 而 汇集 在 一 起 的 数据 称 为 信息 类 ， 

例如 ， 基 础 数据 标准 将 业务 数据 分 成 客户 、 产 品 、 渠 道 、 协 议 、 堂 销 等 内 容 ， 而 每 个 主 
题 又 可 以 分 成 多 个 信息 类 。 例 如 ， 客 户主 题 包括 个 人 客户 信息 、 对 公 客 户 信息 、 同 业 客户 信 
息 等 ， 而 每 个 信息 类 又 包含 一 个 或 者 多 个 信息 子 类 。 

对 于 信息 子 类 来 说 ， 它 是 在 信息 类 的 基础 上 对 数据 的 进一步 细 分 ， 这 种 细 分 是 为 了 描述 
言 息 类 中 的 数据 项 内 容 。 一 个 信息 子 类 可 以 包含 一 个 或 者 多 个 数据 项 内 容 。 

数据 标准 体系 中 基础 数据 框架 的 内 容 和 范围 主要 包括 主题 定义 、 主 题 间 关系 、 信 息 类 和 
信息 子 类 等 。 业 务 标准 和 技术 标准 的 例子 分 别 如 图 6-14 和 图 6-15 所 示 。 


zm [客户 | [可 # Lv] [| 


个 人 客户 信息 。 核心 事件 。 ”基本 信息 
信息 类 ”对 公 客 户 信息 。 ”外 围 事件 。 ”核心 信息 
同业 客户 信息 。 ”事件 分 类 。 ”分 类 信息 



























































客户 归属 
信息 子 类 ”客户 名 称 
资产 负债 


图 6-14 业务 标准 
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数据 分 类 ”|[ 描述 类 编号 类 


名 称 类 金额 类 百分比 

数据 子 类 ”业务 描述 数值 类 日 期 类 
地 址 描述 数量 类 “……… 
名 称 数据 varchar (20) 


数据 格式 。 业务 描述 varchar (100) 


图 6-15 技术 标准 
2) 定义 数据 标准 的 流程 。 


定义 数据 标准 的 流程 主要 包括 现状 分 析 、 主 题 定义 、 标 准 的 审核 和 标准 执行 建议 ， 如 
图 6-16 所 示 。 


| ”数据 标准 的 


标准 的 宙 核 定义 流程 标准 执行 建议 





图 6-16 定义 数据 标准 的 流程 

J 现状 分 析 。 现 状 分 析 主 要 搜集 和 整理 现 有 系统 中 与 主题 相关 的 业务 和 数据 定义 ， 对 
问题 进行 诊断 和 分 析 。 

主题 定义 。 确 定 主 题 的 定义 、 分 类 以 及 信息 项 的 范围 等 。 建 立 数据 项 的 清单 ， 定 义 
每 个 数据 项 的 标准 ， 包 括 业务 属性 和 技术 属性 。 

G@) 标准 的 审核 。 标 准 的 审核 是 由 相关 成 员 对 数据 标准 进行 评审 ， 由 高 层 领导 最 终 确 认 。 

(9 标准 执行 建议 。 提 出 数据 标准 应 该 遵循 的 原则 以 及 具体 的 执行 建议 。 

四 、 数 据 标 准 执行 方法 设计 

数据 标准 执行 方法 设计 主要 包括 : 以 业务 需求 作为 数据 标准 执行 的 驱动 力 、 按 照 计 划 逐 
步 推进 数据 标准 的 建设 、 制 定数 据 标 准 的 执行 策略 、 完 善 和 管理 数据 标准 的 落地 和 执行 。 

(1) 以 业务 需求 作为 数据 标准 执行 的 驱动 力 

数据 标准 的 执行 依赖 业务 部 门 的 需求 ， 只 有 执行 数据 标准 ， 才 能 体现 业务 的 价值 。 数 据 
标准 的 执行 是 以 依赖 业务 需求 的 迫切 程度 为 前 提 的 。 数 据 标准 具有 长 期 性 、 基 础 性 、 迫 切 性 
等 特点 。 

(2) 按照 计划 逐步 推进 数据 标准 的 建设 

可 以 按照 计划 逐步 地 推动 数据 标准 的 建设 。 首 先 选 择业 务 价值 高 的 项 目 或 者 专题 进行 ， 可 
以 进行 一 系列 的 可 行 性 研究 和 业务 价值 分 机 ,制定 详 细 的 标准 落地 方案 。 然 后 由 相关 人 员 进 行 
组 织 和 统一 管理 。 最 后 ， 对 于 一 些 新 建 的 系统 建设 项 目 ， 需 要 在 开发 和 设计 过 程 中 设置 检查 点 
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来 确保 数据 标准 的 执行 ， 并 且 不 断 地 完善 和 充实 数据 标准 。 

(3) 制定 数据 标准 的 执行 策略 

从 业务 和 技术 等 多 个 方面 去 验证 数据 标准 执行 方案 的 可 行 性 ， 同 时 根据 分 析 结 果 ， 给 出 
合理 的 数据 标准 执行 建议 。 

(4) 完善 和 管理 数据 标准 的 落地 和 执行 

在 数据 标准 的 定义 和 落地 过 程 中 ， 不 断 地 完善 数据 标准 的 管理 办 法 和 规章 制度 ， 组 织 架 
构 和 流程 。 同 时 还 需要 加 强 对 数据 标准 执行 过 程 的 评审 和 监督 工作 ， 并 有 旦 逐步 建立 和 细 化 数 
据 标准 的 评审 规范 。 

五 、 数 据 标准 制定 的 工作 步骤 

数据 标准 制定 的 工作 步骤 主要 包含 以 下 几 个 部 分 : 准备 阶段 对 数据 标准 的 需求 数据 项 
进行 采集 ; 由 业务 部 门 确认 关键 数据 项 ; 制定 数据 标准 ， 以 形成 数据 标准 的 初稿 ;对 数据 标 
准 进行 研讨 和 确认 。 

1) 准备 阶段 。 

准备 阶段 主要 包括 对 数据 标准 现状 的 调研 、 工 作 方 法 和 工作 模板 的 准备 工作 等 内 容 。 

2) 对 数据 标准 的 需求 数据 项 进行 采集 。 

该 步骤 主要 内 容 包 括 数据 项 的 来 源 类 型 、 数 据 项 的 来 源 、 主 题 域 、 主 题 域 大 类 、 主 题 域 





























细 类 、 共 至 项 名 称 、 数 据 项 中 文 名 称 、 系 统 表 中 文 名 称 、 系 统 表 严 文 名 称 、 表 内 字段 器 文 名 
称 、 说 明 、 是 否 纳 入 共 宇 项 等 内 容 ， 见 表 6-1。 


表 6-1 对 数据 标准 的 需求 数据 项 进行 采集 


共 > 十 -> 7 ELL 
数据 项 的 rg be 系统 表 闫 文 。 废 内 字段 喘 文 
来 源 类 型 , . 


本 客户 编号 类 
业务 系统 t_cust_info Cust_no | 别 + 证 件 号 人 码 


+ 后 级 


业务 
系统 














3) 由 业务 部 门 确认 关键 数据 项 。 

该 步骤 主要 内 容 包括 : 系统 和 业务 现状 ， 数 据 标 准 制定 依据 ， 数 据 标准 制定 建议 ， 是 否 
制定 标准 ， 数 据 标准 名 称 等 。 

4) 制定 数据 标准 ， 以 形成 数据 标准 的 初 稳 。 

5) 对 数据 标准 进行 研讨 和 确认 。 

根据 提出 的 不 同意 见 进行 标准 修改 ， 最 终 形 成 数据 标准 。 

总 之 ， 在 数据 标准 执行 过 程 中 ， 需 要 对 现 有 的 数据 标准 进行 管理 和 维护 ， 在 落地 过 程 
中 ， 逐 步 地 完善 数据 标准 管理 流程 和 规范 。 

六 、 推 动 数据 标准 落地 的 方法 

推动 数据 标准 落地 的 方法 主要 包括 以 下 几 种 。 
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1. 通过 业务 驱动 推动 数据 标准 的 落地 

主要 通过 业务 部 门 的 需求 、 标 准 执行 的 效果 和 业务 现实 迫切 程度 等 几 个 方面 去 推动 数据 
标准 的 执行 和 体现 业务 的 价值 ， 同 时 它们 都 是 数据 标准 落地 执行 的 前 提 和 重点 。 

2. 通过 制定 计划 和 采用 监督 评审 的 方式 推动 标准 的 落地 

主要 包括 按 计划 进行 系统 的 改造 和 监督 评审 等 工作 ， 如 图 6-17 所 示 。 





入 了 区 j] 平和 7 
监督 评审 


按 计划 进行 系统 改造 


开发 流程 中 设立 检查 点 来 确保 
数据 标准 的 执行 





以 业务 价值 高 的 项 目 或 专题 
为 优先 ， 实 施 前 应 该 充分 沟 
通 ， 进 行 可 行 性 研究 和 业务 





价值 评 佑 ， 制 定 详细 落地 执 
行 方案 





图 6-17 制定 计划 和 和 采用 监督 评审 的 方式 推动 标准 的 落地 


3. 通过 阶段 实施 的 方式 推动 标准 的 落地 
主要 包括 可 行 性 研究、 价值 评 佑 、 设 定 范 围 和 差异 执行 等 工作 ， 如 图 6-18 所 示 。 


可 行 性 研究 价值 评估 设 定 范围 





.业务 影响 业务 价值 评估 “主题 范围 人 
.技术 影响 . 业务 部 门 支持 .实施 层次 人 
.系统 关联 .需要 吻合 度 .预期 目标 ee 


“改造 工作 量 “ 试 氮 推进 


图 6-18 通过 阶段 实施 的 方式 推动 标准 的 落地 


4. 建立 数据 标准 的 闭环 管理 流程 

数据 标准 只 有 在 业务 系统 的 日 常 运 彰 过 程 中 才能 发 挥 其 作用 。 数 据 标 准 可 以 提高 数据 的 
共享 性 和 一 致 性 。 数 据 标 准 的 闭环 管理 流程 包括 标准 应 用 、 标 准 发 布 、 标 准 维护 和 标准 监 
控 ， 如 图 6-19 所 示 。 

5. 通过 完善 管理 组 织 和 流程 去 推动 标准 的 落地 

主要 内 容 包 括 管理 办 法 /规章 制度 、 组 织 架 构 和 流程 ， 如 图 6-20 所 示 。 

举例 来 说 ， 可 以 参考 外 部 标准 、 监 管 有 要求。 先进 经 验 和 逻辑 模型 来 规划 数据 标准 体系 ， 
如 图 6-21 所 示 。 

数据 标准 管理 是 一 项 具有 系统 性 、 复 杂 性 和 长 期 性 特点 的 工作 。 

随 着 标准 的 落地 和 执行 ,我 们 可 以 不 断 地 完善 数据 标准 ， 建 立 数据 标准 动态 管理 机 制 ， 


747 














标准 应 用 标准 发 布 
将 标准 成 条 应 用 到 完善 标准 发 布 平 台 ， 





系统 中 及 时 准确 地 向 业务 
| 部 门 和 项 目 组 发 布 


EE 
数据 标准 区 
















标准 监控 
通过 数据 质量 管理 指 
实现 数据 标准 更 新 维 标 和 报表 ， 监 控 数据 
护 与 业务 系统 的 同步 标准 的 执行 状况 


图 6-19 建立 数据 标准 的 闭环 管理 流程 





| 
| 
| 
| 
| 
随 着 数据 标准 的 落地 。 ! 人员 岗位 设置 、 构 成 ， 1 创建、 更 新 、 审 核 、 执 行 
执行 ， 数 据 标准 的 管 。 1 以 及 任职 资质 和 具体 职责 
理 办 法 / 规章 制度 、 1 
必须 不 断 充实 和 完善 ， 

| 

| 





图 6-20 通过 完善 管理 组 织 和 流程 去 推动 标准 的 落地 


外 部 标准 









产品 数据 标准 


协议 数据 标准 


交易 数据 标准 


财务 数据 标准 





图 6-21 规划 数据 标准 体系 
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通过 数据 管理 系统 进行 标准 的 更 新 和 发 布 ， 推 动 数据 标准 在 业务 领域 的 落地 和 执行 。 业 务 管 
理 部 门 在 制定 业务 制度 和 产品 创新 时 应 该 遵循 数据 标准 ，IT 操作 人 员 在 系统 内 进行 数据 采 
集 和 维护 过 程 中 应 该 执行 数据 标准 ， 加 快 数据 标准 在 技术 领域 的 落地 。 

对 于 数据 标准 工作 来 说 ， 落 地 执行 是 重点 ， 业 务 驱 动 是 关键 ， 配 套 落实 是 保障 ， 如 
图 6-22 所 示 。 

(1) 落地 执行 是 重点 

数据 标准 只 有 在 执行 时 才能 体现 标准 的 价值 ， 包 括 对 
业务 、 技 术 和 业务 流程 的 借鉴 ， 然 后 不 断 地 修正 和 完善 数 » Ww 
据 标准 ， 

(2) 业务 驱动 是 关键 

数据 标准 的 建立 和 使 用 不 能 脱离 业务 需求 ， 真 正解 决 
实际 问题 才 是 数据 标准 实施 的 动力 。 

(3) 配套 落实 是 保障 

通过 一 系列 的 配套 落实 来 保障 数据 标准 纳入 到 整体 的 

















业务 驱动 
、 








Lu 








治理 体系 中 ， 从 而 监控 数据 标准 的 执行 状况 。 图 6-22 ”数据 标准 工作 
考虑 数据 标准 执行 的 先后 顺序 。 对 于 渠道 、 公 共 统 计 
口径 和 产品 目录 及 其 定义 每 指标 的 数据 标准 ， 按 照 其 重要 性 ， 分 别 划 分 成 蜗 、 中 、 低 三 个 音 


分 ， 如 图 6-23 所 示 。 





图 6-23 数据 标准 执行 的 先后 顺序 


标准 体系 的 实施 路 线 图 的 制定 包括 建立 数据 标准 管控 体系 、 数 据 标准 定义 和 数据 标准 落 
如 图 6-24 所 示 。 

具体 过 程 举例 如 下 : 

(1) 数据 标准 管控 体系 -组 织 流 程 - 建设 初期 

建立 数据 标准 小 组 机 制 和 管理 流程 。 

(2) 数据 标准 管控 体系 -组 织 流 程 - 建设 中 期 

建立 专职 机 构 和 管控 绩效 指标 体系 。 


地 


3 
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数据 标准 体系 的 实施 














、 建 设 中 期 
建立 后 期 建立 后 期 】 【建立 后 期 


图 6-24 标准 体系 的 实施 路 线 图 


(3) 数据 标准 管控 体系 -组 织 流程 - 建设 后 期 

定期 复审 数据 标准 体系 ， 保 证 数据 标准 的 合理 性 。 

七 、 数 据 标准 管控 规范 、 管 控 原 则 、 管 理 组 织 和 管控 流程 

1. 数据 标准 管控 规范 

数据 标准 管控 规范 包括 数据 标准 制定 管理 办 法 、 数 据 标准 审核 管理 办 法 、 数 据 标准 发 布 
管理 办 法 和 数据 标准 管理 规范 等 内 容 ， 如 图 6-25 所 示 。 

(1 ) 数据 标准 制定 管理 办 法 

明确 数据 标准 制定 的 部 门 ; 明确 数据 标准 制定 的 工 
作 环 节 和 工作 细节 。 

(2) 数据 标准 审核 管理 办 法 


明确 数据 标准 审核 的 部 门 ; 明确 数据 标准 审核 的 工 本 
M4 











M2 
M3 





作 环 市 及 工作 细则 。 
(3) 数据 标准 发 布 管 理 办 法 
明确 数据 标准 发 布 的 部 门 ; 明确 数据 标准 发 布 的 工 














作 环 节 及 工作 细则 。 
(4) 数据 标准 管理 规范 图 6-25 ”数据 标准 管控 规范 
明确 数据 标准 管理 工作 方 癌 与 思路 ; 明确 数据 标准 管理 部 门 以 及 各 部 门 在 工作 中 承担 的 
角色 与 职责 。 





2. 数据 标准 管控 原则 

数据 标准 管控 原则 主要 包含 唯一 性 、 稳 定性 、 前 脆性、 准确 性 、 可 执行 性 和 低 风 险 性 。 
。 叭 一 性 

主要 保证 数据 标准 的 命名 、 编 码 和 业务 解释 的 唯一 性 。 


。 稳定 性 
主要 维持 数据 标准 的 权威 性 和 稳定 性 。 
。 六 脆性 


数据 标准 的 调研 、 设 计 和 执行 要 具备 前 瞻 性 。 
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e 准确 性 

对 数据 标准 的 业务 定义 、 业 务 名 称 和 口径 都 应 该 具备 准确 性 。 

e 可 执行 性 

主要 考虑 业务 实际 情况 和 未 来 发 展 ， 保 证 数据 标准 具有 可 执行 性 。 

e 低 风 险 性 

主要 考虑 各 种 业务 风险 和 实施 风险 ， 保 证 数据 标准 能 够 顺利 实施 和 落地 ， 降 低 风 险 性 。 

3. 数据 标准 的 制度 规范 、 数 气 标 准 管理 办 法 和 数据 标准 制定 的 工作 方法 

(1) 数据 标准 的 制度 规范 

旨 明 数据 标准 管理 工作 方 回 与 工作 思路 ， 明 确 参 与 数据 标准 管理 工作 的 部 门 以 及 各 部 门 
在 工作 中 承担 的 角色 和 责任 。 

(2) 数据 标准 管理 办 法 

明确 参与 数据 标准 制定 的 工作 部 门 以 及 数据 标准 制定 的 工作 环节 及 工作 细 市 。 

(3) 数据 标准 制定 的 工作 方法 

明确 数据 标准 制定 的 工作 方法 和 原则 。 

如 图 6-26 所 示 。 













ir 明 数 据 标准 管理 工作 方向 与 工作 思路 ， 明 确 参 与 数据 标准 管 
理工 作 的 部 门 以 及 各 个 部 门 在 工作 中 承担 的 角色 和 责任 







则 ”明确 参与 数据 标准 制定 的 工作 部 门 以 及 数据 标准 制定 的 工作 环节 
及 工作 细节 













明确 数据 标准 制定 的 工作 方法 和 原则 


图 6-26 ”数据 标准 的 制度 规范 、 管 理 办 法 以 及 制定 的 工作 方法 


4. 数据 标准 的 管理 组 织 和 管控 流程 

数据 标准 管理 组 织 说 明 如 图 6-27 所 示 ， 包 括 : 建立 数据 管控 办 公 室 ， 设 置 数 据 标 准 主 
管 和 数据 标准 管理 员 ; 设立 数据 标准 责任 人 ， 包 含 数据 标准 负责 人 、 数 据 录 入 人 员 和 数据 使 
用 人 员 等 ， 设 立 系统 责任 人 ， 分 为 数据 标准 负责 人 和 系统 负责 人 。 

数据 标准 管控 流程 主要 包括 标准 申请 、 标 准 规划 、 标 准 审核 、 标 准 实施 和 标准 规划 评 
佑 ， 如 图 6-28 所 示 。 

(1 ) 标准 申请 

数据 标准 的 申请 流程 是 通过 制定 计划 ， 提 出 修订 数据 标准 的 申请 ， 同 时 提交 给 上 层 领导 
进行 审核 ， 最 后 明确 责任 人 的 过 程 。 它 的 主要 工作 是 由 标准 管理 员 制 定 相 应 的 计划 ， 再 由 数 
据 标准 的 使 用 者 或 者 系统 负责 人 提交 标准 制定 的 申请 ， 最 后 由 标准 的 负责 人 审核 相关 申请 ， 
由 数据 标准 管理 员 将 标准 分 配给 相应 的 责任 人 。 
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数据 标准 管理 组 织 











数据 管控 办 公 室 数据 标准 责任 人 
数据 标准 主管 | 数据 标准 负责 人 
数据 标准 管理 员 数据 录入 人 员 

7 数据 使 用 人 员 
系统 责任 人 
数据 标准 负责 人 
系统 负责 
图 6-27 数据 标准 管理 组 织 
标准 申请 
0 标准 规划 
标准 审核 
( 标准 实施 
里 标准 规划 评估 


图 6-28 数据 标准 管控 流程 


相应 的 责任 人 可 以 包括 数据 标准 管理 员 、 数 据 标准 使 用 着 、 系 统 负责 人 、 业 务 数据 标准 
负责 人 和 技术 数据 标准 负责 人 等 。 

流程 主要 工作 内 容 包括 : 

1) 制定 数据 标准 的 相关 计划 。 

2) 明确 数据 标准 相关 人 员 、 角 色 和 相应 的 职责 。 

3) 记录 数据 在 标准 应 用 过 程 中 存在 的 问题 。 

4) 由 相关 人 员 提 出 数据 标准 新 增 、 修 改 、 删 除 的 申请 。 

5) 将 数据 标准 的 申请 提交 到 决策 层 审 核 。 

6) 由 数据 标准 管理 员 明 确 相 应 的 责任 人 。 

数据 标准 申请 流程 如 图 6-29 所 示 。 

1) 制定 计划 。 

由 数据 标准 管理 员 制 定 计 划 。 

2) 提出 申请 。 

由 数据 使 用 人 员 、 系 统 负 贡 A 人 提出 申请 。 
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3) 审核 申请 。 

由 业务 、 技 术 数 据 标准 负责 人 审核 申请 。 
4) 明确 责任 人 。 

由 数据 标准 管理 员 明 确 责 任 人 。 






【| ”明确 责任 人 
数据 标准 管理 员 


业务 、 技 术 数 据 标 准 负 贡 人 


RR 


oa2 
数据 使 用 人 员 


GET 人 ^ 





数据 标准 管理 员 


图 6-29 ”数据 标准 申请 流程 
(2) 标准 规划 


数据 标准 的 主要 工作 是 通过 对 标准 现状 的 调研 和 分 析 ， 制 定 业 务 数据 标准 和 技术 数据 标 
准 ， 最 后 形成 数据 标准 初稿 ， 如 网 6-30 所 示 。 


数据 标准 的 主要 工作 ) 





制定 业务 制定 技术 


调研 和 分 析 数据 标准 数据 标准 





图 6-30 数据 标准 的 主要 工作 
数据 标准 规划 流程 如 图 6-31 所 示 。 
e 现状 分 析 
由 业务 数据 标准 负责 人 、 技 术 数据 标准 负责 人 进行 现状 分 析 。 
e。 数据 标准 业务 定义 
由 业务 数据 标准 负责 人 进行 数据 标准 业务 定义 。 
® 数据 标准 技术 定义 
由 技术 数据 标准 负责 人 进行 数据 标准 技术 定义 。 

147 


e 数据 标准 初稿 制定 
由 业务 数据 标准 负责 人 、 技 术 数 据 标 准 负 贡 人 制定 数据 标准 初稿 。 


vb 数据 标准 初稿 制定 | 
人 页 人 
“Re i SS 技术 数据 标准 负责 
| 数据 标准 业务 定义 










| 业务 数据 标准 负责 
现状 分 析 ) 

业务 数据 标准 负责 人 

技术 数据 标准 负责 人 


图 6-31 数据 标准 规划 流程 
(3) 标准 审核 


标准 审核 的 主要 工作 是 对 数据 标准 规划 进行 审核 ， 审 核 通 过 后 ， 再 对 相关 部 门 进行 批复 
和 发 布 ， 如 图 6-32 所 示 。 








批复 


图 6-32 标准 审核 
数据 标准 审核 与 发 布 流程 ， 如 图 6-33 所 示 。 








数据 标准 管理 员 


数据 标准 主管 


”数据 标准 管理 员 


图 6-33 数据 标准 审核 与 发 布 流程 
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(4) 标准 实施 





数据 标准 的 实施 的 基本 步骤 包括 制定 数据 标准 实施 方案 、 审 核 数 据 标 准 实施 方案 和 数据 
标准 的 实施 ， 如 图 6-34 所 示 。 相 关 的 责任 人 可 以 是 数据 标准 管理 员 、 数 据 标 准 主管 等 ， 如 


图 6-35 所 示 。 
1) 制定 数据 标准 实施 方案 


由 数据 标准 管理 员 制 定数 据 和 标准 实施 方案 。 


2) 审核 数据 标准 实施 方案 


由 数据 标准 主管 审核 数据 标准 实施 方案 


3) 数据 标准 的 实施 


由 系统 负责 人 进行 数据 标准 的 实施 。 


审核 数据 


标准 实施 方案 





制定 数据 标准 SP” 数据 标准 的 实施 


< 

) a ) 
作 | 
图 6-34 ”数据 标准 的 实施 的 基本 步骤 
(5) 标准 规划 评 佑 









制定 数 b 数据 标准 管理 员 
据 标 准 
实施 方案 


图 6-35 数据 标准 的 实施 流程 的 相关 人 负责 人 


对 数据 标准 规划 进行 定期 评 佑 ， 根 据 评 估 结 灯 对 数据 标准 规划 进行 修正 ， 保 证 数据 标准 
的 正确 性 。 标 准 规划 评 俩 流程 主要 包括 评 佑 规划、 审核 方 宁 、 标 准 评 佑 和 标准 变更 ， 如 


图 6-36 所 示 。 


评 信 规 划 败 业务 数据 标准 负责 人 


数据 标准 管理 员 





技术 数据 标准 负责 人 
业务 数据 标准 负责 人 


图 6-36 标准 规划 评估 


八 、 数 据 标准 的 全 面 定义 





数据 标准 是 通过 一 整 父 的 数据 规范 、 管 控 流 程 和 各 种 技术 工具 确保 重要 的 数据 是 一 致 的 
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和 准确 的 。 例 如 ， 通 过 数据 标准 保证 产品 、 客 户 、 机 构 、 上 账户 等 内 容 都 是 一 致 的 、 准 确 的 。 
1. 数据 标准 体系 设计 指导 原则 
数据 标准 体系 设计 指导 原则 包括 唯一 性 、 稳 定性 、 前 有 上 脆性、 准确 性 、 可 执行 性 和 低 风 险 
性 ， 如 图 6-37 所 示 。 


Co 


站 


让 和 的 性 | 充分 考虑 业务 风险 和 技术 实施 
\ ) 风险， 保证 标准 的 顺利 执行 
数据 标准 体系 设计 指导 原则 ww 


可 执行 性 | 根据 实际 情况 和 未 来 的 发 展 状 


| z | \ 只 况 ， 使 标准 具有 可 执行 性 


准确 性 








业务 名 称 、 业 务 口 
-~ WW * 各 舌 闪 具名 稚 久 性 
~ | [ 年 | 
J \ 前瞻 





瞧 = 性 [站 定 性 | I 设计 和 执行 要 具备 前 上 脆性 
主要 保证 标准 多 名 编码 、 > 
业务 解释 的 一 致 性 示 准 的 
解释 | 威 性 和 稳定 性 


图 6-37 数据 标准 体系 设计 指导 原则 


2. 数据 标准 包含 的 内 容 
数据 标准 是 企业 级 的 数据 定义 ,企业 所 有 系统 部 应 该 人 遵守 和 执行 数据 标准 。 数 据 标 准 可 
以 包括 每 个 数据 项 的 业务 属性 、 技 术 属 性 和 管控 属性 ， 如 图 6-38 所 示 。 





标准 编 纪 、 标 准 中 文 名 称 、 标 准 英文 名 称 、 
二: 区 1 标准 别名 、 业 务 定 义 、 业 务 规则 、 相 关 标 
准 关 系 、 标 准 来 源 


EE 四 对 数据 类 别 、 数 据 格式 、 取 值 范 围 、 编 码 规则 









志清 标准 定义 部 门 、 标 维 使 用 系统 





图 6-38 数据 标准 包含 的 内 容 


(1) 业务 属性 

主要 包括 标准 编写、 标准 中 文 名 称 、 标 准 瑞 文 名 称 、 标 准 别名 、 业 务 定 义 、 业 务 规 则 、 
相关 标准 关系 、 标 准 来 源 。 

(2) 技术 属性 

主要 包括 数据 类 别 、 数 据 格 式 、 取 值 范围 、 编 码 规则 。 
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(3) 管控 属性 
主要 包括 标准 定义 部 门 、 标 准 使 用 系统 。 
例如 ， 客 户 张 三 、 李 四 的 年 龄 和 性 别 分 别 为 40 岁 、50 岁 ， 男 、 女 。 此 时 ， 人 性 别 编码 出 
现 了 不 一 致 ， 见 表 6-2 和 表 6-3， 这 就 需要 针对 两 张 表 的 内 容 制 定 统 一 的 数据 标准 。 
表 6-2 性 别 编码 1 











客户 姓名 年 龄 性 别 
张 三 40 M 
李 四 50 








表 6-3 性 别 编码 2 





客户 姓名 年 龄 竹 别 
张 志 40 00 
本 四 50 01 








统一 后 的 数据 标准 如 图 6-39 和 图 6-40 所 示 。 


代码 编号 
姓名 代码 
英文 名 称 i 


代码 描述 描述 人 的 性 别 代码 





图 6-39 编码 1 


低 友人 低 码 描述 
0 | 条 各 性别 一 


0 
| 
FE 
9 | 





图 6-40 ”编码 2 


上 文 提 到 数据 标准 包括 每 个 数据 项 的 业务 属性 、 技 术 属 性 和 管控 属性 ， 举 例如 图 6-41 
J 

九 、 数 据 标准 的 应 用 过 程 

1. 数据 标准 的 应 用 过 程 

数据 标准 的 应 用 过 程 如 图 6-42 所 示 。 

2. 数据 标准 项 日 建设 过 程 

1) 根据 数据 标准 的 实施 路 线 图 ， 可 以 有 计划 地 进行 数据 标准 主题 定义 工作 ， 逐 步 实现 
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基本 信息 基本 概况 
EP 
中 文 名 称 ”| 证 件 号 码 英文 名 称 | Identi_Code 


区 描述 个 人 客户 某 种 证 件 的 具体 号 码 信息 ， 
1 如 身份 证 号 








公民 身份 证 号 码 是 特征 组 合 码 ， 由 17 位 数 
业务 规则 字 本 体 码 和 一 位 校 验 码 组 成 


行内 制度 或 者 外 部 


取 什 攻 | 
信息 使 用 部 站 


图 6-41 编码 表 










“查询 数据 标准 ， 以 开发 符合 数据 标准 的 应 用 
“ 提交 标准 代码 比 对 文档 


. 维护 数据 标准 ee 
“ 制定、 发 布 标准 
“ 查询 数据 标准 规范 ， 反 馈 建 议 


“ 提出 数据 标准 需求 申请 


图 6-42 数据 标准 的 应 用 过 程 


数据 在 业务 和 技术 上 的 统一 。 

2) 结合 最 佳 实践 ， 推 动 数据 标准 在 系统 建设 中 的 执行 和 落地 。 

3) 建立 数据 标准 管理 组 织 和 流程 ， 实 现 标准 的 维护 、 发 布 ， 同 时 实现 数据 标准 的 制度 
化 ， 提 高 全 企业 的 数据 标准 文化 和 标准 的 管理 水 平 。 

4) 数据 标准 体系 可 以 分 成 数据 标准 规划 、 数 据 标准 定义 、 数 据 标准 执行 和 数据 标准 管 
理 等 几 个 部 分 。 其 中 数据 标准 规划 是 标准 体系 的 总 纲 ; 数据 标准 定义 是 数据 标准 最 重要 的 部 
分 之 一 ， 是 业务 和 技术 进行 沟通 的 桥梁 ; 数据 标准 执行 是 业务 价值 体现 的 部 分 ; 数据 标准 管 
理 是 标准 在 系统 中 正常 使 用 的 保障 。 

数据 标准 规划 是 长 期 的 和 基础 性 的 工作 ， 通 过 对 高 层 领导 和 业务 部 门 的 访谈 ， 包 括 对 数 
据 标 准 实施 的 迫切 性 、 难 易 度 和 业务 部 门 对 数据 标准 的 关注 度 进行 综合 衡量 ， 提 出 具体 的 效 
据 标 准 实施 路 线 图 。 
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数据 标准 定义 是 在 参考 相关 标准 体系 分 类 的 基础 上 ， 确 定数 据 标准 的 框架 内 容 。 对 于 商 
业 银 行 来 说 ， 可 以 包括 客户 、 产 品 、 员 工 和 机 构 、 活 动 、 交 易 等 内 容 。 数 据 标准 不 仪 需 要 对 
核心 的 主题 进行 详细 定义 ， 而 且 还 需要 描述 该 主题 的 业务 属性 和 技术 属性 。 

数据 标准 执行 是 按照 业务 需求 的 紧迫 程度 ， 制 定 合理 的 执行 方案 。 对 于 标准 的 管理 工作 
是 建立 相应 的 管理 组 织 ， 包 括 建 立领 导 小 组 、 标 准 管理 办 公 室 ， 设 立 数据 标准 管理 员 和 相应 
的 业务 专家 等 。 通 过 数据 标准 工作 流程 的 制度 化 和 工作 化 ， 提 高 数据 标准 的 管理 水 平和 管理 
效率 。 数 据 标准 体系 的 产 出 物 可 以 包括 数据 标准 体系 的 规划 、 标 准 主题 的 定义 、 执 行 建议 和 
管理 制度 等 内 容 。 

根据 业务 需求 和 对 系统 现状 的 理解 ， 编 写 数 据 标准 实施 计划 、 数 据 标 准 实 施 路 线 图 和 各 
个 阶段 的 实施 内 容 等 。 其 中 对 数据 标准 主题 的 定义 可 以 包括 : 客户 主题 数据 标准 、 产 品 主题 
数据 标准 、 渠 道 主题 数据 标准 、 交 易 主 题 数据 标准 、 内 部 机 构 主 题 数据 标准 等 。 

客户 主题 数据 标准 是 根据 现 有 的 数据 现状 、 客 户 信 息 的 使 用 情况 ， 细 化 对 客户 主题 的 标 
准 定义 ， 包 括 对 客户 主题 的 详细 定义 、 数 据 项 类 别 、 业 务 标准 和 技术 标准 等 内 容 。 

产品 主题 数据 标准 同样 是 根据 现 有 的 数据 现状 、 各 业务 部 门 对 产品 信息 的 需求 ， 细 化 产 
品 主题 的 数据 标准 定义 ， 包 括 产品 主题 的 定义 、 产 品 特征 和 属性 、 对 产品 属性 的 标准 定义 等 
内 容 。 

3. 数据 标准 的 主要 应 用 

数据 标准 的 应 用 以 业务 标准 和 技术 标准 为 基础 ， 是 业务 部 门 和 技术 部 门 沟通 的 桥梁 ， 同 
时 为 IT 系统 的 建设 提供 重要 参考 。 随 着 标准 体系 建设 的 不 断 深 入 ， 可 以 逐步 实现 数据 标准 
对 各 个 应 用 系统 的 指导 作用 ， 可 以 促成 系统 的 集成 和 数据 的 共享 ， 真正 实现 业务 价值 。 

对 于 商业 银行 来 说 ， 可 以 借助 企业 级 客户 管理 项 目 (ECIF) 的 建设 和 实施 ， 实 现 客户 
主题 标准 在 ECIF 中 的 全 面 落 地 。 在 ECIF 项 目的 需求 和 设计 阶段 ， 数 据 标准 小 组 可 以 提出 
需求 ， 同 时 进行 数据 标准 解释 工作 等 。 

通过 数据 标准 体系 在 相关 系统 中 的 应 用 ， 为 业务 部 门 和 技术 部 门 产生 价值 。 

如 图 6-43 所 示 ， 数 据 标准 的 主要 应 用 包括 : 数据 标准 定义 分 析 ; 通过 数据 标准 的 建 
设 ， 优 化 业务 流程 和 提高 业务 价值 ;利用 数据 标准 ， 解 决 业务 需求 统一 的 问题 ， 在 数据 标准 
的 定义 中 ， 数 据 标准 与 源 系 统 的 映射 关系 反映 了 现 有 系统 和 数据 标准 之 间 的 关系 ; 数据 标准 
的 完善 是 一 个 闭环 的 过 程 等 。 




















































数据 标准 定义 分 析 





通过 数据 标准 的 建设 ， 优 化 业务 流程 和 提高 业务 价值 





利用 数据 标准 ， 解 决 业务 需求 统一 的 问题 


时 关系 反映 了 现 有 系统 和 数据 标准 之 间 的 关系 


py 
> 闭环 的 过 程 


图 6-43 ”数据 标准 的 应 用 
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1) 数据 标准 定义 分 析 。 通 过 数据 标准 对 各 个 信息 项 的 标准 定义 ， 包 括 业 务 定 义 和 技 术 
定义 ， 使 管理 人 员 和 业务 人 员 通 过 数据 标准 了 解 统一 的 标准 口径 、 业 务 定义 和 每 个 信息 项 的 
业务 人 台 义 ， 提 高 数据 的 一 致 性 和 共 齐 性 。 

2) 通过 数据 标准 的 建设 ， 优 化 业务 流程 和 提高 业务 价值 。 数 据 标准 可 以 对 业务 流程 进 
行 优化 和 改进 。 例 如 ， 证件 类 型 的 数据 标准 化 可 以 实现 对 居民 续 份 证 的 有 效 文 持 ， 提 高 客户 
的 服务 能 力 ， 特 别 是 在 ECIF 项 目 中 ， 对 数据 标准 的 实施 有 利于 优化 客户 归并 的 业务 流程 ， 
同时 提高 数据 质量 。 

3) 利用 数据 标准 ， 解 决 业务 需求 统一 的 问题 。 数 据 标 准 的 定义 是 基于 业务 部 门 和 技术 
部 门 的 讨论 和 确定 后 得 到 的 。 例 如 ，ECIF 系统 代码 采用 公共 代码 数据 标准 ， 可 以 减少 业务 
需求 统一 的 工作 量 ， 满 足 业 务 需求 。 

4) 在 数据 标准 的 定义 中 ， 数 据 标 准 与 源 系 统 的 映射 关系 反映 了 现 有 系统 和 数据 标准 之 
间 的 关系 。 

5) 数据 标准 的 完善 是 一 个 闭环 的 过 程 。 例 如 ， 数 据 标 准 的 执行 为 相关 业务 与 技术 的 规 
划 提 供 参 考 ， 同 时 业务 需求 的 变化 促使 对 数据 标准 的 修订 ， 然 后 逐步 完善 数据 标准 。 

如 何 保证 数据 标准 的 可 持续 发 展 和 不 断 完善 ? 可 参考 如 下 内 容 。 

1) 通过 膛 循 业务 需求 ， 推 动 数 据 标准 在 全 企业 的 落地 实施 。 

2) 数据 标准 需要 结合 企业 战略 和 业务 需求 ， 这 样 才 能 体现 业务 的 价值 。 在 这 种 思路 
下 ， 开 展 数据 标准 的 定义 、 执 行 工作 ， 形 成 数据 标准 、 业 务 需 求 和 系统 设计 开发 三 者 之 间 的 
融合 。 

3) 可 以 借助 数据 标准 的 评审 工作 ， 以 及 对 数据 标准 管理 系统 的 建设 ,促进 数据 标准 的 
执行 和 落地 。 


6.2.4 数据 标准 项 目 总 结 


数据 标准 建设 是 长 期 性 的 工作 ， 对 于 企业 或 者 商业 银行 来 说 ， 数 据 标准 体系 建设 的 好 坏 
直接 影响 企业 内 部 管理 水 平和 对 外 服务 的 能 

数据 标准 建设 可 以 引入 先进 的 行业 经 验 和 方法 论 ， 从 数据 标准 的 规划 、 定 义 、 执 行 和 管 
理 等 各 个 方面 进行 标准 体系 的 建设 ， 提 高 全 企业 的 数据 标准 文化 水 平 。 标 准 体系 的 建设 依赖 
业务 需求 ， 它 也 是 一 个 长 期 的 过 程 。 




















6.3 数据 质量 管理 


6.3.1 数据 质量 管理 概况 


1. 数据 质量 管理 概念 

数据 质量 管理 可 以 通过 提高 管理 水 平 ， 严 格 执行 相关 的 政和 寅 和 规范 ， 或 者 使 用 一 些 技术 
工具 ， 使 得 数据 质量 得 到 进一步 的 提升 。 对 于 数据 质量 管理 来 说 ， 它 是 一 个 财 环 的 管理 过 
程 ， 经 过 不 断 循环 、 改 善 ， 逐 步 提 高 数据 的 质量 ， 并 最 终 为 企业 顾 得 经 济 效 益 。 

数据 质量 管理 的 目的 是 提升 系统 的 数据 质量 ， 业 务 人 员 通 过 数据 质量 管理 系统 发 现 数 据 
在 流转 过 程 中 存在 哪些 问题 ， 经 过 不 断 修 正和 完善 ， 使 数据 质量 得 到 不 断 提升 。 
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数据 质量 管理 目标 是 提升 数据 的 正确 性 、 一 致 性 和 完整 性 。 通 过 数据 质量 管理 办 法 、 组 
织 、 流 程 ， 发 现 数 据 质量 问题 并 且 及 时 得 到 解决 ， 从 而 最 大 限度 地 提升 业务 价值 。 
数据 质量 存在 问题 的 原因 归 为 以 下 几 类 : 如 图 6-44 所 示 。 











数据 质量 存在 问题 的 原因 


(1) 数据 格式 问题 
例如 ， 数 据 缺失 、 超 出 数据 范围 、 无 效 数据 


i 


(2) 数据 一 致 性 问题 
一 些 外 键 或 者 检查 约束 被 去 掉 。 


(3) 业务 逻辑 问题 
数据 库 设 计 不 够 严谨 所 致 。 








图 6-44 数据 质量 存在 问题 的 原因 


2. 数据 质量 管理 办 法 和 实施 细则 

数据 质量 管理 办 法 包括 质量 管理 的 工作 方向 和 工作 思路 ， 例 如 数据 质量 问题 的 识别 、 评 
佑 与 处 理 。 明 确 参 与 的 部 门 、 人 员 ， 包 括 在 数据 质量 管理 工作 中 承担 的 角色 和 职责 。 

数据 质量 实施 细则 包括 质量 检查 规范 管理 办 法 ， 明 确 质 量 检 查 中 的 参与 部 门 以 及 具体 的 
流程 ， 例 如 问题 的 收集 、 更 新 和 终止 。 

3. 数据 质量 管理 范畴 

技术 检查 指标 主要 包括 空 什 检查、 空格 检查 、 日 期 字段 检查 、 唯 一 性 检查 和 编 但 检查 如 
图 6-45 所 示 等 。 

e。 空 信 检查 

判断 字段 值 是 否 为 空 ， 是 否 需要 赋 默 认 值 。 

e 空格 检查 

判断 字段 值 是 否 为 空格 ， 是 否 需 要 赋 默 认 值 。 

e 日 期 字段 检查 

判断 该 字段 是 否 为 合法 的 日 期 ， 是 否 需要 赋 默 认 值 。 -一 一 一 

e。 唯一 性 检查 编码 检查 

唯一 性 检查 主要 是 针对 业务 唯一 性 的 检查 。 

e 编 伺 检查 

仿 查 编码 的 合法 性 。 图 6-45 技术 检查 指标 

4. 数据 质量 管理 框架 

数据 质量 管理 框 染 如 图 6-46 所 示 ， 主 要 包括 关于 数据 质量 管理 政策 、 组 织 、 流 程 和 技 
术 工 具 。 其 中 管理 政策 包括 数据 质量 管理 方法 、 数 据 质量 实施 细则 ， 组 织 包括 数据 质量 角色 
定义 、 数 据 质量 职责 划分 ， 流 程 包括 数据 质量 事前 防范 、 效 据 质 量 事 中 监控 、 数 据 质量 事后 
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改进 ， 技 术 工具 主要 包括 数据 质量 管理 系统 。 


数据 质量 
事前 防范 


数据 质量 
事 中 监控 


数据 质量 
管理 方法 


数据 质量 
实施 细则 
数据 质量 


事后 改进 





图 6-46 数据 质量 管理 框架 


综 上 所 述 ， 数 据 质量 概况 如 下 : 

(1) 数据 质量 管理 的 定义 

数据 质量 管理 的 目的 是 提升 数据 的 质量 。 业 务 人 员 通 过 数据 质量 管理 系统 发 现 数 据 在 流 
转 过 程 中 存在 哪些 数据 质量 问题 ， 经 过 不 断 修 正 ， 使 数据 质量 不 断 得 到 提升 。 

(2) 数据 质量 的 管理 目标 

数据 质量 的 管理 目标 是 提升 数据 的 正确 性 、 一 致 性 和 完整 性 。 通 过 数据 质量 管理 办 法 、 
组 织 、 流 程 ， 发 现 数据 质量 问题 并 且 及 时 得 到 解决 ， 从 而 最 大 限度 地 提升 业务 价值 。 

(3) 产生 数据 质量 问题 的 原因 

数据 质量 问题 的 原因 包括 数据 格式 问题 、 数 据 一 致 性 问题 和 业务 逻辑 问题 等 。 


6.3.2 数据 质量 管理 的 设计 方法 和 流程 


数据 质量 管理 的 设计 方法 和 流程 包括 : 数据 质量 管理 总 体 规划 、 数 据 质量 管理 的 解决 办 
法 和 数据 质量 管理 的 执行 等 。 

(1) 数据 质量 管理 总 体 规划 

数据 质量 管理 总 体 规划 主要 包括 总 体 规划 的 指导 原则 、 数 据 质 量 管理 基本 制度 及 规范 、 
数据 质量 管理 规范 和 管理 办 法 、 数 据 质量 管理 组 织 和 数据 质量 管控 流程 等 内 容 。 

(2) 数据 质量 管理 的 解决 办 法 

数据 质量 管理 的 解决 办 法 主要 包括 定义 、 发 现 、 分 析 、 反 饿 、 整 改 和 监控 。 

(3) 数据 质量 管理 的 执行 

数据 质量 管理 的 执行 主要 包括 提供 考核 指标 问题 查询 、 相 关 IT 部 门 进行 数据 提升 和 数 
据 质量 管理 人 员 进 行 管理 操作 等 内 容 。 

一 、 数 据 质 量 管理 总 体 规划 

1. 数据 质量 管理 总 体 规划 的 指导 原则 

数据 质量 管理 总 体 规划 的 指导 原则 主要 包括 : 完整 性 原则 、 正 确 性 原则 、 一 致 性 原则 、 
及 时 性 原则 和 适当 性 原则 。 

® 完整 性 原则 
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所 有 的 信息 、 属 性 是 否 按照 系统 和 业务 规则 完整 填写 。 

e 正确 性 原则 

是 否 准 确 地 收集 到 相关 信息 ， 并 如 实在 系统 中 进行 录 和 人 和 处 理 。 

e 一 致 性 原则 

不 同系 统 、 业 务 之 间 关 联 的 数据 是 否 一 致 ， 包 括 一 致 的 定义 、 人 含义 、 取 值 及 操作 规 
则 等 。 

e 及 时 性 原则 

数据 是 否 能 够 及 时 地 被 获取 ， 是 否 能 够 反映 当前 业务 运 人 香 状 况 ， 以 满足 对 数据 进行 加 
工 、 查 询 和 分 析 的 业务 需求 。 

e 适当 性 原则 

数据 是 否 适 当地 进行 了 发 布 和 使 用 ， 以 确保 数据 的 安全 性 。 

2. 数据 质量 管理 基本 制度 及 规范 

无 论 是 事前 防范 、 事 中 监控 还 是 事后 改进 ， 必 须 膛 循 数据 质量 管理 制度 和 规范 。 

3. 数据 质量 管控 规范 和 管理 办 法 

对 数据 质量 的 管控 包括 以 业务 需求 为 导 问 ， 选 取 对 数据 质量 要 求 最 为 紧迫 的 数据 ， 并 且 
设 定 相应 的 数据 质量 指标 。 然 后 制定 数据 质量 的 管控 规范 和 管理 办 法 。 

4 数据 质量 管理 组 织 

数据 质量 管理 组 织 主要 落实 管理 的 组 织 架 构 和 相应 的 六 位 职责 ， 从 而 保证 事前 防范 、 事 中 监 
探 和 事后 改进 的 洲 地 执行 。 当 这 三 个 流程 发 生变 化 的 时 候 ， 可 能 会 调整 相应 的 管理 组 织 絮 构 。 

数据 质量 管理 组 织 举 例如 下 : 

e 数据 质量 管控 委员 会 

e 效 据 质量 主管 

主持 数据 质量 管理 全 面 工作 ， 并 对 数据 质量 管理 的 各 项 工作 结 采 负责 。 

e 效 据 质 量 管理 员 

引导 相关 业务 部 门 和 技术 部 门 对 效 据 质量 管理 的 执行 ; 组 织 和 协调 相关 部 门 对 于 

数据 质量 检查 规则 的 制定 ; 保证 数据 质量 管理 建设 方法 顺利 执行 ， 同 时 进行 日 党 

的 监督 和 管理 

数据 质量 管理 组 织 包 括 数 据 管控 办 公 室 、 数 据 责 任 人 和 系统 责任 人 三 个 角色 。 

e 数据 省 控 办 公 室 : 数据 质量 主管 和 数据 质量 管理 员 。 

e 数据 责任 人 : 数据 质量 负责 人 人、 数据 录入 人 员 和 数据 报 送 机 构 。 

e 系统 责任 人 : 数据 质量 负责 人 、 系 统 负责 人 和 系统 运 维 人 员 。 

5. 数据 质量 管控 流程 

数据 质量 管控 流程 主要 包括 事前 防范 、 事 中 监控 、 事 后 改进 。 

(1) 事前 防范 

事前 防范 数据 质量 问题 主要 包括 数据 质量 问题 的 总 结 、 数 据 质量 问题 的 分 析 和 汇总 、 数 
据 质量 防范 方案 规划 、 数 据 质 量 防 范 方 案 评审 、 数 据 质 量 防范 方案 实施 和 数据 质量 防范 方案 
最 后 评估 等 内 容 。 

事前 防范 是 对 数据 质量 问题 义 可 能 地 进行 规避 和 防范 。 数 据 质量 事前 防范 流程 如 
图 6-47 所 示 。 
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数据 质量 事前 
防范 的 琉 程 







问题 总 结 


问题 分 析 
防范 方案 设计 


问题 分 析 
pa 
防范 方案 设计 
防范 方案 实施 
状态 报告 


图 6-47 ”数据 质量 事前 防范 





(2) 事 中 监控 

数据 质量 事 中 监控 主要 包括 监控 数据 质量 的 问题 、 问 题 分 析 、 数 据 质量 问题 的 解决 、 重 
新 分 析 数 据 质量 问题 、 生 成 质量 分 析 报 告 ， 关 于 事 中 监控 的 流程 ， 如 图 6-48 所 示 。 

事 中 监控 的 主要 目的 是 为 了 快速 地 解决 数据 质量 问题 。 


数据 质量 事 中 
监控 的 流程 


监控 问题 发 现 


图 6-48 ”数据 质量 事 中 监控 








问题 收集 





监控 问题 发 现 









(3) 事后 改进 

数据 质量 事后 改进 包括 问题 的 收集 、 质 量 问题 分 析 、 质 量 改进 方案 设计 、 方 案 审核 、 方 
案 实施 、 方 案 效果 评 佑 。 事 后 人 处理 数据 质量 问题 是 对 已 经 存在 的 质量 问题 进行 优化 和 改进 。 
相关 人 员 可 以 包括 数据 质量 管理 员 、 业 务 数据 质量 负责 人 、 技 术 数 据 质量 负责 人 、 数 据 质 量 
主管 ， 数 据 质 量 事 后 改进 流程 ， 如 图 6-49 所 示 。 


数据 质量 事后 
改进 的 流程 


制定 规则 














制定 规则 








效果 评估 


图 6-49 数据 质量 事后 改进 
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二 、 数 据 质 量 管理 的 解决 办 法 
数据 质量 管理 的 解决 办 法 主要 包括 定义 、 发 现 、 分 析 、 反 饿 、 整 改 、 监 控 等 。 











e 定义 

对 数据 质量 问题 进行 分 类 ， 制 定 相关 的 检查 规则 。 

e 发 现 

可 以 使 用 相关 质量 管理 工具 ， 根 据 检查 规则 去 配置 检查 任务 ， 从 而 发 现 问题 。 
e 分 析 

当 发 现 问题 后 ， 对 问题 进行 分 析 ， 判 断 是 上 自身 问题 还 是 数据 源 的 问题 。 
e 反馈 

根据 处 理 流 程 ， 由 人 负责 人 将 质量 问题 反 锯 至 相关 系统 。 

e 整改 

由 数据 质量 管理 小 组 负责 对 问题 的 修改 。 

e 监控 


数据 质量 管理 系统 对 质量 问题 持续 监控 ， 保 证 数据 
的 正确 性 ， 形 成 一 个 闭环 结构 ， 经 过 不 断 修 正 、 循 环 ， 
逐步 提高 数据 的 质量 ， 如 图 6-50 所 示 。 

三 、 数 据 质量 管理 的 执行 

举例 来 说 ， 某 日 ， 某 银行 员工 张 三 发 现 数据 质量 问 
题 ， 并 把 该 问题 记录 下 来 ， 同 时 反馈 到 该 银行 的 IT 部 门 
进行 数据 提升 。 

处 理 过 程 ， 由 各 机 构 进行 结果 反馈 ， 对 于 不 能 提升 i 
的 数据 ， 由 数据 质量 管理 人 员 进 行 数据 忽略 ， 结 果 体 现 四-50 妆 据 原 量 明理 的 解决 办 法 
在 系统 中 ， 如 图 6-51 所 示 。 





十 一 些 难 [ 汀 查 于 好 六 间 行 和 匆 上 用 棍 
数据 质量 管控 考核 系统 显示 问题 数据 对 一 些 难以 提升 的 数据 ， 进 行 忽略 操作 





图 6-51 数据 质量 管理 的 执行 


总 结 来 说 ， 在 数据 质量 管理 平台 中 建立 数据 质量 监测 体系 ， 使 得 数据 质量 问题 得 到 根本 
解决 ， 最 终 形成 数据 质量 闭环 的 提升 流程 ， 如 图 6-52 所 示 。 
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分 析 结 末 反 馈 到 数据 加 工 环节 





数据 质量 分 析 功 能 数据 加 工 环 市 动态 调整 数据 加 工 过 程 


图 6-52 ”建立 数据 质量 监测 体系 





6.4 元 数据 管理 


6. 4.1 元 数据 管理 概况 


元 数据 管理 是 管理 企业 的 元 数据 信息 ， 包 括 技术 元 数据 、 业 务 元 数据 和 管理 元 数据 。 元 
数据 管理 的 目标 是 获取 、 理 解 和 共享 企业 的 信息 资产 。 

1. 元 数据 管理 功能 

元 数据 管理 功能 主要 包括 : 

e 元 数据 采集 

实现 业务 元 数据 的 自动 采集 ， 完 成 技术 元 数据 的 自动 匹配 ， 实 现 对 无 法 自动 采集 元 数据 
言 息 的 补 录 。 

e 元 数据 查询 

提供 技术 元 数据 、 业 务 元 数据 和 管理 元 数据 的 信息 查询 ， 支 持 对 元 数据 的 统计 。 

e 元 数据 版 本 管理 

自动 对 元 数据 版 本 进行 匹配 ， 提 供 对 元 数据 历史 版 本 的 查询 和 对 比 。 

e 元 数据 分 析 

实现 数据 管理 相关 的 数据 分 布地 图 、 数 据 血 缘分 析 和 影响 性 分 析 等 。 

2. 元 数据 管理 功能 主要 体现 在 以 下 几 个 方面 : 

(1 ) 元 数据 采集 

1) 配置 元 数据 采集 器 。 

2) 实现 对 业务 元 数据 的 自动 采集 。 

3) 自动 匹配 技术 元 数据 的 关联 性 。 

(2) 元 数据 自动 补 录 

补 录 无 法 自动 获取 的 元 数据 ， 对 元 数据 信息 进行 修改 和 完善 。 

(3) 元 数据 版 本 管理 

1) 对 采集 到 的 元 数据 信息 进行 版 本 比 对 。 

2) 对 发 生变 化 的 元 数据 进行 提醒 。 

3) 支持 历史 各 个 版 本 元 数据 的 查询 。 

(4) 元 数据 查询 

元 数据 查询 包括 数据 映射 、 加 工 规 则 、 数 据 标准 信息 、 数 据 指标 口径 、 数 据 分 布 等 信 
息 , 如 图 6-53 所 示 。 
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加 工 规 则 






cn 数据 标准 信息 
© 时 


“mt 本 
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本 we 区 
数据 分 布 时 数据 指标 口径 


图 6-53 ”元 数据 查询 


(5) 元 数据 分 析 

元 数据 分 析 主 要 包括 元 数据 血缘 分 析 和 元 数据 影响 性 分 析 。 

1) 元 数据 血 绿 分 析 。 当 发 现 报表 中 的 指标 有 问题 的 时 候 ， 可 以 通过 元 数据 的 血缘 分 析 
追溯 到 该 指标 的 下 游 系 统 到 上 游 系统 的 转换 流程 中 ， 帮 助 分 析 人 员 了 解 该 指标 的 处 理 流程 ， 
为 进一步 定位 问题 提供 帮助 。 血 绿 分 析 和 影 啊 性 分 析 关 似 ， 但 是 方向 相反 。 

触发 血 绿 分 析 的 方式 : 

J 通过 查询 找到 变化 的 目标 表 ， 经 过 血缘 分 析 ， 发 现 变 化 的 表 是 由 上 游 哪些 源 引 发 的 。 

@ 如 果 在 报表 中 发 现 某 个 指标 有 问题 ， 可 以 进行 血缘 分 析 ， 分 析 该 指标 的 数据 加 工 过 
程 ， 了 解 该 指标 出 现 问题 的 原因 。 





2) 元 数据 影响 性 分 析 。 在 数据 处 理 过 程 中 ， 如 果 源 系统 的 表 结构 或 者 属性 发 生变 化 ， 
需要 通过 元 数据 的 影响 性 分 析 ， 了 解 这 些 变化 会 影响 数据 处 理 流程 中 下 游 的 哪些 表 结构 或 者 
属性 。 

3， 元 数据 管理 的 几 个 角色 

。 元 数据 管理 者 








主要 负责 元 数据 收集 、 维护 、 录 入 ， 以 及 元 数据 版 本 管理 、 信 息 发 布 等 工作 。 

e 元 数据 消费 者 

包括 对 元 数据 基础 信息 的 查询 、 信 息 分 析 等 。 

元 数据 管理 框 钠 主要 包括 管理 政策 、 组 织 、 流 程 和 技术 工具 。 其 中 管理 政策 包括 元 数据 
管理 方法 、 元 数据 管理 实施 细则 ;组 织 包 括 元 数据 管理 组 织 架 构 、 元 数据 管理 岗位 职责 ; 流 
程 包括 元 数据 申请 、 元 数据 审批 、 元 数据 实施 和 推广 ， 以 及 元 数据 维护 ; 技术 工具 主要 是 元 
数据 管理 系统 ， 如 图 6-54 所 示 。 

4. 数据 标准 和 元 数据 的 对 比 说 明 

1) 从 定义 上 来 说 ， 数 据 标准 是 经 过 相关 机 构 确 认 和 批准 的 规范 性 的 文件 ， 标 准 可 以 保 
障 核心 数据 在 使 用 和 交换 过 程 中 的 一 致 性 和 准确 性 。 元 数据 是 描述 关于 数据 的 数据 ， 包 括 这 
些 数据 的 定义 、 数 据 之 间 的 关系 等 信息 ， 可 以 分 成 业务 元 数据 、 技 术 元 数据 和 管理 元 数据 。 

2) 数据 标准 是 为 了 更 好 地 保障 各 个 部 门 之 间 的 数据 共享 。 而 元 数据 是 对 数据 进行 管 
理 ， 方 便 数 据 检 索 ， 通 过 元 数据 的 分 析 ， 更 好 地 为 数据 分 析 人 员 服 务 。 
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实施 细则 





图 6-54 ”元 数据 管理 框架 


3) 数据 标准 的 实施 和 落地 需要 业务 部 门 和 技术 部 门 之 间 的 合作 ， 业 务 部 门 参考 数据 标 
准 规范 文档 制定 业务 规则 ， 技 术 部 门 在 系统 的 建设 过 程 中 参考 该 规范 文档 进行 设计 和 开发 。 
元 数据 的 实施 和 落地 通过 元 数据 管理 平台 对 数据 进行 血缘 分 析 和 影响 性 分 析 。 

4) 数据 标准 主要 是 统一 业务 和 技术 定义 ,目的 是 消除 企业 内 部 人 员 对 于 业务 和 技术 术 
语 的 分 上 收 ， 它 是 一 种 规范 性 的 文档 。 元 数据 管理 是 对 数据 结构 的 描述 ， 并 且 提 供 数 据 管理 和 
分 析 的 功能 。 


6. 4. 2 元 数据 管理 的 设计 方法 和 流程 


元 数据 管理 的 设计 方法 和 流程 主要 包括 元 数据 管理 总 体 规划 、 元 数据 管理 的 解决 办 法 和 
元 数据 管理 的 执行 ， 如 网 6-55 所 示 。 





元 数据 管理 的 设计 方法 和 流程 









(1) 元 数据 管理 总 体 规划 
元 数据 管理 方法 
元 数据 管理 组 织 
元 数据 管控 流程 


(2) 元 数据 管理 的 解决 办 法 


元 数据 版 本 控制 
元 数据 查询 
元 数据 分 析 


(3) 元 数据 管理 的 执行 
举例 如 下 ， 业务 系统 升级 、 
对 相关 元 数据 进行 影响 性 分 析 、 
解决 问题 消除 升级 影响 


元 数据 管理 | 
的 解决 办 法 






”的 执行 





图 6-55 元 数据 管理 的 设计 方法 和 流程 


1. 元 数据 管理 总 体 规划 

(1) 元 数据 管理 方法 

元 数据 管理 方法 主要 是 明确 元 数据 管理 的 工作 方向 和 参与 元 数据 管理 的 部 门 。 

(2) 元 数据 管理 组 织 

元 数据 管理 组 织 主 要 包括 数据 管控 办 公 室 、 数 据 责任 人 和 系统 贡 任 人 ， 如 图 6-56 所 示 。 
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元 数据 管理 组 织 






数据 贡 任 人 


= 








图 6-56 ”元 数据 管理 组 织 


1) 数据 管控 办 公 室 包括 元 数据 主管 、 元 数据 管理 员 。 
2) 数据 责任 人 包括 元 数据 负责 人 、 数 据 录入 人 员 和 数据 使 用 人 员 。 
3) 系统 责任 人 包括 元 数据 负责 人 和 系统 负责 人 。 
(3) 元 数据 管控 流程 元 数据 申请 
元 数据 管控 流程 包括 元 数据 申请 、 审 批 与 发 布 、 A 
实施 与 推广 以 及 维护 ， 如 图 6-57 所 示 。 


@ 
1) 元 数据 申请 。 首 先 对 业务 元 数据 、 技 术 元 数 | 
据 进行 统一 定义 ， 形 成 版 本 。 然 后 进行 元 数据 新 增 、 人 六 @《 中 图 市 批 与 发 布 
时 
© 





修改 或 者 删除 的 申请 ， 形 成 元 数据 的 初稿 。 相 关 人 

员 可 以 是 业务 元 数据 负责 人 、 技 术 元 数据 负责 人 等 。 

元 数据 申请 流程 主要 包括 元 数据 定义 、 提 交 申请 、 和 

元 数据 导 和 人 ， 如 图 6-58 所 未。 图 6-57 元 数据 管控 流程 











图 6-58 元 数据 申请 流程 


2) 审批 与 发 布 。 审 批 与 发 布 的 流程 包括 : 对 元 数据 进行 分 析 、 元 数据 审核 和 元 数据 发 
布 。 通 过 技术 元 数据 获取 数据 的 血 绿 关系 ， 通 过 业务 元 数据 获取 相关 业务 文档 ， 通 过 对 元 数 
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据 的 审核 与 发 布 确保 元 数据 的 真实 性 和 完整 性 。 一 般 来 说 ， 元 数据 主管 进行 审核 ， 元 数据 管 
理 员 发 布 元 数据 。 


元 数据 审批 与 发 布 流程 如 图 6-59 所 示 。 


元 数据 管理 员 元 数据 主管 元 数据 管理 员 


i 
rd 








元 数据 审核 元 数据 发 布 
图 6-59 元 数据 管理 审批 与 发 布 流程 


对 元 数据 进行 分 析 


e。 对 元 数据 进行 分 析 

角色 是 元 数据 管理 员 。 

。 元 数据 审核 

角色 是 元 数据 主管 。 

® 元 数据 发 布 

角色 是 元 数据 管理 员 。 

3) 实施 与 推广 。 元 数据 的 实施 与 推广 是 将 元 数据 录入 到 管理 平台 进行 实施 和 推广 。 相 





天 人 员 可 以 包括 元 数据 管理 员 、 数 据 使 用 人 员 、 系 统 负责 人 、 数 据 孙 和 人 人 员 等 。 





元 数据 实施 与 推广 流程 主要 包括 元 数据 查询 、 元 数据 使 用 和 元 数据 反馈 。 
。 元 数据 查询 
包括 数据 使 用 人 员 、 系 统 负 责 人 、 数 据 录 入 人 员 、 数 据 报 送 机 构 。 








® 元 数据 使 用 

包括 数据 使 用 人 员 、 系 统 负 贡 人 、 数 据 录 入 人 员 、 数 据 报 送 机 构 。 
® 元 数据 反 供 

包括 元 效 据 管 理 员 。 





4) 维护 。 元 数据 维护 流程 包括 : 元 数据 的 评 佑 规划 、 元 数据 评估 和 元 数据 的 变更 。 
例如 ， 首 移 对 元 数据 的 使 用 情况 进行 评 佑 ， 监 测 元 数据 在 系统 中 的 使 用 情况 ， 考 察 相关 


的 实施 结 末 ， 提 区 使 用 分 析 报 告 ， 对 相关 情况 进行 总 结 。 





然后 提出 更 正 或 者 注销 申请 ， 太 时 更 正 元 数据 内 容 ， 最 后 形成 闭环 的 元 数据 管理 流程 。 








相关 人 员 可 以 包括 元 数据 管理 员 、 业 务 元 数据 负责 人 和 技术 元 数据 负责 人 。 
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e 元 数据 的 评估 规划 


包括 元 数据 管理 员 。 

® 元 效 据 评 舍 

包括 业务 元 数据 负责 人 和 技术 元 数据 负责 人 。 
e 元 效 据 的 变更 


包括 业务 元 数据 负责 人 和 技术 元 数据 负责 人 。 


2. 元 数据 管理 的 解决 方法 
元 数据 管理 的 主要 目的 是 为 数据 的 有 效 利用 提供 全 面 的 指导 。 通 过 元 数据 管理 ， 可 以 建 
立 数 据 的 统一 视图 和 统一 口径 ， 确 保 数 据 的 完整 性 、 准 确 性 、 一 致 性 。 
元 数据 管理 功能 包括 元 数据 采集 、 元 数据 版 本 控制 、 元 数据 查询 、 元 数据 分 析 ， 如 
图 6-60 所 示 。 
1) 元 数据 的 采集 。 采 集 的 内 容 包 元 数据 采集 
括 : 技术 元 数据 ， 如 ETL 映射 关系 ， 数 @ 
据 结 构 ， 数 据 字典 等 内 容 ， 业 务 元 数据 ， 
如 代码 标准 、 指 标 标 准 等 信息 。 如 采 无 
法 自动 采集 元 数据 信息 ， 则 进行 信息 的 








补 录 ， 或 者 对 元 数据 信息 进行 修改 和 ”2 @ 昌国 Ti 
2) 对 元 数据 版 本 进行 管理 。 对 于 采 本 

集 的 元 数据 信息 进行 版 本 对 比 ， 对 于 发 © 

生变 化 的 元 数据 进行 提醒 ， 并 且 保 留 每 ee 

个 历史 版 本 的 元 数据 信息 。 图 6-60 元 数据 管理 功能 





3) 元 数据 查询 可 以 提供 对 技术 元 数据 和 业务 元 数据 的 信息 查询 。 

4) 支持 对 元 数据 的 统计 分 析 。 例 如 ， 实 现 数据 血 绿 分 析 和 影响 性 分 析 。 

3 元 数据 管理 的 执行 

对 于 元 数据 管理 的 业务 场景 之 一 ， 举 例如 下 : 因 业 务 升级 ， 在 “XXX 表 ” 中 增加 了 科 
目 YYY， 需 要 找到 本 次 升级 后 对 相关 系统 的 影响 。 

处 理 结果 如 下 : 例如 ， 对 元 数据 “XXX 表 ” 进 行 影响 性 分 析 ， 发 现 对 ODS、 报 表 指 标 
都 有 影响 。 

它 的 过 程 如 图 6-61 所 示 ， 在 业务 系统 升级 的 时 候 ， 对 相关 元 数据 进行 影响 性 分 析 ， 最 
后 解决 问题 ， 消 除 升 级 影响 。 
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Ti 
了 
和 WU 


有 怪 达 问题 ， 7 
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二 
Na 





图 6-61 元 数据 管理 的 执行 过 程 一 


对 于 元 数据 管理 的 业务 场景 之 二 ， 举 例如 下 : 菏 报 表 系统 运 维 人 员 李 四 发 现 余额 中 的 
“金额 ”结果 异 第 ， 因 此 ， 把 问题 反馈 给 元 数据 管理 系统 的 局 级 分 析 员 。 
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处 理 过 程 : 由 高 级 分 析 员 登 录 到 元 数据 管理 系统 ， 对 报表 系统 余额 中 的 “金额 ”进行 
血缘 分 析 ， 然 后 再 对 问题 进行 定位 。 

总 结 来 说 ， 元 数据 管理 平台 在 业务 层面 上 帮助 业务 人 员 了 解数 据 的 定义 ， 辅 助 数据 标准 
的 建设 ， 解 决 业务 定义 不 一 致 的 问题 ， 同 时 也 帮助 技术 人 员 了 解数 据 来 源 和 数据 加 工 规则 ， 
从 而 有 效 地 提升 开发 效率 ， 降 低 数 据 的 复杂 性 ， 解 决 数据 的 冲突 问题 。 通 过 分 析 数 据 的 血缘 


和 影响 ， 找 出 问题 产生 的 原因 和 影响 范围 。 


6.5 数据 生命 周期 管理 


6.5.1 数据 生命 周期 管理 概况 

一 、 什 么 是 数据 生命 周期 管理 

数据 生命 周期 管理 是 对 数据 进行 统一 管理 ， 目 的 是 降低 数据 的 存储 压力 。 一 般 来 说 ， 数 
据 生 命 周 期 管理 包括 数据 创建 、 数 据 使 用 、 数 据 归 档 和 数据 销毁 ， 如 图 6-62 所 示 。 


数据 创建 数据 使 用 
通过 遵守 数据 标准 体系 规则 通过 元 数据 管理 监控 数据 
保证 数据 创建 的 准确 性 的 使 用 ， 利 用 数据 标准 和 


数据 质量 管理 保证 数据 加 
工 的 准确 性 


数据 归档 数据 销毁 









目的 是 将 一 部 分 不 常用 的 历 通过 对 数据 的 评估 ， 将 一 
史 数 据 进行 归档 ， 降 低 数据 部 分 数据 彻底 销毁 ， 降 低 


的 存储 压力 系统 的 存储 压力 
图 6-62 数据 生命 周期 包含 的 内 容 


。 数据 创建 
通过 避 守 数据 标准 体系 规则 保证 数据 创建 的 准确 性 。 


e 数据 使 用 

通过 元 数据 管理 监控 数据 的 使 用 ， 利 用 数据 标准 和 数据 质量 管理 保证 数据 加 工 的 准 
确 性 。 

e 数据 归档 


目的 是 将 一 部 分 不 和 常用 的 历史 数据 进行 归档 ， 降 低 数据 的 存储 压力 。 

e 效 据 销毁 

通过 对 数据 的 评估 ， 将 一 部 分 数据 彻底 销毁 ， 降 低 系 统 的 存储 压力 。 

二 、 数 据 生 命 周期 管理 框架 

数据 生命 周期 省 理 框架 主要 包括 数据 生命 周期 的 管理 政策 、 组 织 、 流 程 和 技术 工具 ， 如 
图 6-63 所 示 。 

e 管理 政策 

包括 数据 生命 周期 管理 办 法 、 数 据 生命 周期 管理 实施 细则 。 
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e 组 织 


包括 数据 生命 周期 管理 角色 定义 、 数 据 生命 周期 管理 角色 责任 。 


e 流程 





包括 数据 生命 周期 管理 方案 规划、 数据 生命 周期 管理 方案 实施 和 对 具体 问题 的 解决 。 


。 技术 工具 
包括 数据 生命 周期 管理 系统 。 





数据 生命 周期 
管理 方案 规划 


数据 生命 周期 
管理 方案 实施 


对 具体 问题 的 
解决 


图 6-63 ”数据 生命 周期 管理 框架 


6.5.2 数据 生命 周期 管理 的 设计 方法 和 流程 


数据 生命 周期 管理 的 设计 方法 和 流程 包括 : 数据 生命 周期 管理 总 体 规划 、 数 据 生命 周期 


管理 的 解决 办 法 和 数据 生命 周期 管理 的 执行 





， 如 图 6-64 所 示 。 





数据 生命 周期 管理 的 设计 方法 和 流程 


(1) 数据 生命 周期 管理 总 体 规划 
数据 生命 周期 管理 规范 及 管理 办 法 
数据 生命 周期 管理 组 织 
数据 生命 周期 管控 流程 


(2) 数据 生命 周期 管理 的 解决 办 法 
数据 生成 及 传输 
数据 存储 
数据 处 理 和 应 用 
数据 销毁 


(3) 数据 生命 周期 管理 的 执行 
包括 数据 生成 周期 的 所 有 阶段 ， 必 须 按照 组 织 业 
务 的 需要 进行 存储 ， 保 护 数据 ， 以 提供 数据 访问 


图 6-64 数据 生命 周期 管理 的 设计 方法 和 流程 


1. 数据 生命 周期 管理 总 体 规划 
(1) 数据 生命 周期 管理 规范 及 管理 办 法 
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数据 生命 周期 管理 规范 及 管理 办 法 包括 相关 制度 规范 和 管理 办 法 。 

e 规范 制度 

明确 数据 生命 周期 管理 的 组 织 体 系 。 明 确 各 组 织 在 数据 生命 周期 管理 工作 中 应 该 承担 的 
角色 与 职责 。 明 确 数据 生命 周期 划分 阶段 。 

e 管理 办 法 

确定 数据 生命 周期 的 组 织 机 构 和 各 组 织 应 该 承担 的 工作 职员 。 

(2) 数据 生命 周期 管理 组 织 

数据 生命 周期 管理 组 织 包括 数据 管 探 办公室、 数据 责任 人 和 系统 责任 人 ， 如 网 6-65 
所 示 。 


数据 生命 周期 管理 组 织 





图 6-65 数据 生命 周期 管理 组 织 


e。 数据 管控 办 公 室 
主要 包括 数据 生命 周期 主管 、 数 据 生 命 周 期 管理 员 。 


® 数据 责任 人 
主要 包括 数据 生命 周期 负责 人 。 
e 系统 责任 人 


主要 包括 数据 生命 周期 负责 人 人、 系统 负 责 人 和 系统 运 维 人 员 。 

其 中 数据 生命 周期 管理 组 乡 的 角色 主要 有 两 种 ， 数据 生命 周期 主管 和 数据 生命 周期 管理 
， 如 网 6-66 所 示 。 

(3) 数据 生命 周期 管控 流程 

数据 生命 周期 管控 流程 包括 数据 生命 周期 管理 方案 规划 、 数 据 生 命 周 期 管理 方法 实施 和 
落地 、 对 具体 问题 的 解决 ， 如 图 6-67 所 示 。 

e 数据 生命 周期 管理 方案 规划 
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局 


数据 生命 周期 主管 时 ”数据 生命 周期 管理 员 


主持 数据 生命 周期 管理 完善 数据 生命 周期 管理 

全 面 工作 ， 对 数据 生命 规范 ， 按 照 数据 生命 周 

周期 管理 和 各 项 工作 结 期 管理 方法 对 数据 进行 

本 负责 评估 ， 负 责 数据 生命 周 
期 管理 








图 6-66 数据 生命 周期 管理 组 织 角 色 


数据 生命 周期 
管理 方案 规划 






对 具体 问题 的 
解决 


数据 生命 周期 
管理 方法 实施 
和 落地  ， 





图 6-67 数据 生命 周期 管控 流程 


数据 生命 周期 管理 规划 是 由 企业 的 业务 人 员 和 相关 系统 运 维 人 员 提 交 数 据 生命 周期 的 需 
求 ， 再 由 管理 人 员 设 计 并 制定 数据 生命 周期 的 管理 沫 略 。 与 效 据 生 命 周期 管理 相关 的 人 员 包 
括 数据 生命 周期 负责 人 、 系 统 运 维 人 员 、 数 据 生命 周期 管理 员 、 数 据 生 命 周期 主管 等 。 

e 数据 生命 周期 管理 方法 实施 和 洛 地 

数据 生命 周期 管理 方法 实施 和 洛 地 的 相关 人 员 主 要 包括 : 系统 负责 人 、 系 统 运 维 人 员 、 
数据 生命 周期 管理 员 等 ， 职 责 是 实施 数据 生命 周期 管理 方案 ， 评 舍 方 案 的 优 劣 等 内 容 。 

e。 对 具体 问题 的 解决 

具体 问题 的 解决 流程 是 针对 出 现 的 问题 进行 分 析 ， 如 存储 问题 ， 然 后 提出 具体 解决 办 
法 ,制定 数据 生命 周期 管理 方案 ， 当 审核 通过 后 执行 该 管理 方案 。 例 如 ， 由 数据 生命 周期 管 
理 员 组 织 相 关 人 员 实 施 或 评 佑 数据 生命 周期 的 管理 混 略 ， 人 员 可 以 包括 系统 运 维 人 员 、 业 务 
数据 生命 周期 负责 人 人、 数据 生命 周期 管理 员 、 拉 术 数 据 生 命 周 期 负责 人 、 数 据 生 命 周 期 主 











管 等 。 
数据 生命 周期 管理 具体 问题 的 解决 流程 主要 包括 申请 、 制 定 方案 、 审 核 、 执 行 和 变更 管 
理 方案 。 


2 数据 生命 周期 管理 的 解决 方法 
数据 生命 周期 管理 涉及 数据 从 开始 创建 一 直到 失去 商业 价值 ， 最 后 按照 规定 被 删除 的 过 
程 。 一 般 来 说 ， 它 有 如 下 几 个 过 程 : 数据 创建 、 数 据 使 用 、 数 据 归档 和 数据 销毁 。 
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3. 数据 生命 周期 管理 的 执行 

数据 生命 周期 的 所 有 阶段 ， 按 照 业 务 需求 存储 数据 ， 以 及 提供 数据 的 访问 。 数 据 生 命 周 
期 的 每 一 阶段 ， 根 据 数据 的 价值 ， 存 在 不 同 层次 的 性 能 、 可 用 性 、 保 护 和 处 理 。 这 样 保证 数 
据 的 可 用 性 ， 也 充分 满足 业务 的 需求 。 

在 数据 生命 周期 的 各 个 阶段 ， 初 始 数据 的 生成 需要 高 速 地 进行 存储 ， 并 且 提 供 相 应 的 保 
护 措施 ， 已 达到 高 可 用 性 。 但 是 随 着 时 间 的 推移 ， 数 据 的 重要 性 会 逐渐 降低 ， 使 用 频率 也 会 
下 降 。 根 据 这 些 变 化 ， 数 据 的 存储 、 可 用 性 、 性 能 和 保护 措施 在 力度 上 也 随 着 发 生变 化 。 

总 结 来 说 ， 通 过 建设 数据 生命 周期 管理 系统 ， 规 范 数据 存储 以 及 数据 生命 周期 管理 ， 提 
高 系统 运行 的 效率 ， 为 生命 周期 规范 提供 文 撑 。 协 助 各 个 业务 系统 实现 统一 的 数据 归档 管 
理 ， 降 低 业 务 系 统 的 复杂 度 ， 缩 短 业 务 系统 建设 的 周期 ， 避 免 因 为 系统 重复 开发 而 造成 的 资 
源 浪费 ， 市 省 各 个 业务 系统 的 资源 。 实 现 更 快 、 更 方便 的 数据 备份 、 恢 复 和 升级 ,减少 系统 
停机 的 时 间 。 将 不 经 常 使 用 的 数据 转移 到 存档 的 基础 设施 中 ， 以 降低 物理 存储 总 量 ， 节 省 便 
件 和 维护 成 本 。 























小 结 


® 一 般 来 说 ， 数 据 是 企业 的 原始 材料 ， 也 是 金融 、 电 信 、 互 联网 等 行业 最 大 的 价值 来 源 
之 一 ， 如 何 利 用 这 些 数据 ， 以 及 如 何 更 好 地 对 数据 进行 挖掘 和 利用 ,已 经 成 为 提高 企 
业 苋 争 力 最 重要 的 手段 之 一 。 
数据 治理 是 一 套 包 含 策 略 、 原 则 、 组 织 结构 、 管 理 制度 、 流 程 以 及 各 种 相关 技术 工具 
的 管理 框 杂 。 数 据 治理 是 对 数据 管理 与 应 用 行使 权力 和 控制 的 活动 集合 ， 在 数据 管理 
与 应 用 层面 上 进行 规划 、 监 督 和 控制 ， 数 据 治理 为 数据 管理 、 数 据 应 用 与 服务 提供 
保障 。 
数据 治理 可 以 看 做 是 一 门 新 的 和 学科， 能够 把 企业 的 独立 系统 结合 起 来 ， 重 新 定义 数据 
的 价值 和 保护 机 制 。 从 技术 上 来 讲 ， 数 据 治理 是 从 OLTP 系统 到 后 台 业 务 数据 库 ， 再 
回 到 前 端的 一 个 财 环 的 过 程 。 
。 一 般 来 说 ， 数 据 治 理 可 以 分 成 两 个 部 分 : 
1) 数据 的 保 隐 机 制 ， 包 括 政策 的 制定 ， 考 虑 使 用 何 种 机 制 、 流 程 和 工具 去 保障 数据 的 
规范 性 。 
2) 需要 考虑 数据 的 质量 标准 和 数据 质量 的 任 责 体系 。 数 据 治理 是 企业 的 责任 ， 需 要 统 
一 的 解决 方案 和 洽 理 模型 来 保护 及 共享 不 同 层面 的 数据 。 
® 数据 治理 建设 的 关键 要 素 : 以 数据 标准 为 基础 、 以 提高 数据 质量 为 核心 、 明 确 数据 治 
理 的 职责 。 
e 对 于 数据 治理 体系 的 框架 结构 ， 可 以 包括 规划 、 机 制 、 治 理 对 象 和 实现 4 个 部 分 。 
® 数据 治理 是 保障 企业 和 商业 银行 安全 、 稳 定 运 营 的 必要 条 件 ， 特 别 是 对 商业 银行 来 
说 ， 如 何 避 人 免 数 据 的 泄露 、 算 改 , 保 证 数据 的 一 任性 和 完整 性 ， 这 才 是 实现 商业 银行 
业务 连续 性 的 关键 。 
。 数据 治理 对 商业 银行 等 金融 机 构 尤 为 重要 : 数据 作为 商业 银行 或 者 企业 的 重要 资产 ， 
相当 于 人 体 的 血液 一 样 ， 是 非常 重要 的 。 高 质量 的 数据 ， 有 利于 管理 决策 层 做 出 准确 
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的 分 析 。 数 据 治理 有 利于 保护 核心 的 业务 数据 。 

。 数据 标准 是 一 父 完 整 的 数据 规范 ， 是 数据 在 使 用 和 交换 过 程 中 ， 为 了 保持 数据 一 致 性 
和 准确 性 而 制定 的 规范 ， 它 主要 包括 数据 分 类 、 业 务 标准 和 撤 术 标准 的 详细 定义 。 数 
据 标准 是 数据 治理 中 基本 的 业务 和 技术 层面 的 保障 。 

® 数据 标准 的 体系 框架 可 以 包括 : 文化 和 战略 ， 数 据 标准 内 容 ， 数 据 标准 制度 和 流程 ， 
数据 标准 的 组 织 和 角色 ， 数 据 标准 工具 。 

® 数据 标准 体系 建设 的 规划 方法 可 以 遵循 业界 先进 的 方法 ， 通 过 调研 、 规 划 访 谈 、 数 
据 标准 现状 分 析 ， 了 解 业 务 部 门 对 数据 标准 的 期 符 ， 确 认 业务 部 门 对 数据 标准 的 想 
法 ， 将 对 数据 标准 的 需求 转化 成 业务 人 员 可 以 理解 的 文档 ， 建 立 数 据 标准 管理 相关 
的 治理 架构 和 管理 流程 ， 同 时 建立 企业 对 数据 标准 管理 的 共识 和 实施 路 线 图 。 

。 数据 标准 规划 的 过 程 如 下 所 示 : 对 现 有 系统 的 数据 标准 进行 梳理 ; 建立 公共 代码 的 数 

据 标 准 ; 通过 公共 代码 数据 标准 的 建立 ， 为 系统 提供 服务 。 

数据 质量 管理 可 以 通过 提高 管理 水 平 ， 严 格 执行 相关 的 政策 和 规范 ， 或 者 使 用 一 些 拉 

术 工 具 ， 使 得 数据 质量 得 到 进一步 的 提升 。 对 于 质量 管理 来 说 ， 它 是 一 个 闭环 的 管理 

过 程 ， 经 过 不 断 循环 、 改 善 ， 逐 步 提 高 数据 的 质量 ， 并 最 终 为 企业 最 得 经 鹿 效 益 。 

数据 质量 管理 的 设计 方法 和 流程 包括 数据 质量 管理 总 体 规划 、 数 据 质量 管理 的 解决 办 

法 、 数 据 质量 管理 的 执行 等 。 

在 数据 质量 管理 平台 中 建立 数据 质量 监测 体系 ， 使 得 数据 质量 问题 得 到 根本 解决 ， 最 

终 形成 数据 质量 闭环 的 提升 流程 。 

® 元 数据 管理 是 管理 企业 的 元 数据 信息 ， 包 括 技术 元 数据 、 业 务 元 数据 和 管理 元 数据 。 
元 数据 管理 的 目标 是 获取 、 理 解 和 共 至 企业 的 信息 资产 。 

e 元 数据 管理 功能 主要 体现 以 下 几 个 方面 : 

1) 元 数据 采集 (配置 元 数据 采集 锅 ; 实现 对 业务 元 数据 的 上 自动 采集 ; 目 动 匹配 技术 元 



































数据 的 关联 性 ) 。 





2) 元 数据 自动 补 录 ( 补 录 无 法 自动 获取 的 元 数据 ， 对 元 数据 信息 进行 修改 和 完善 ) 。 
3) 元 数据 版 本 管理 (对 采集 到 的 元 数据 信息 进行 版 本 比 对 ;对 发 生变 化 的 元 数据 进行 


提醒 ， 文 持 历 史 各 个 版 本 元 数据 的 查询 ) 。 





4) 元 数据 查询 ， 包 括 数 据 映 射 、 加 工 规则 、 数 据 标准 信息 、 数 据 指标 口径 、 数 据 分 布 


等 信息 。 


5 ) 元 数据 分 析 ， 包 括 元 数据 血缘 分 析 和 元 数据 影响 性 分 析 。 

® 元 数据 管理 平台 在 业务 层面 上 帮助 业务 人 员 了 解数 据 的 定义 ， 辅 助 数据 标准 的 建设 ， 
解决 业务 定义 不 一 致 的 问题 ， 同 时 也 帮助 技术 人 员 了 解数 据 来 源 和 数据 加 工 规 则 ， 从 
而 有 效 地 提升 开发 效率 ， 降 低 数据 的 复杂 性 ， 解 决 数 据 的 冲突 问题 。 通 过 分 析 数 据 的 
血缘 和 影响 ， 找 出 问题 产生 的 原因 和 影响 范 于 。 

。 数据 生命 周期 管理 是 对 数据 进行 统一 管理 ， 目 的 是 降低 数据 的 存储 压力 。 一 般 来 说 ， 
数据 生命 周期 管理 包括 : 数据 创建 、 数 据 使 用 、 数 据 归 档 和 数据 销毁 。 

e 数据 生命 周期 管理 总 体 规划 包括 : 

1) 数据 生命 周期 管理 规范 及 管理 办 法 。 

2) 数据 生命 周期 管理 组 织 。 
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3) 数据 生命 周期 管控 流程 。 

。 数据 生命 周期 的 所 有 阶段 ， 企 业 按照 业务 需求 存储 数据 ， 以 及 提供 数据 的 访问 。 数 气 
生命 周期 的 每 一 阶段 ， 根 据 数据 的 价值 ， 存 在 不 同 层次 的 性 能 、 可 用 性 、 保 护 和 处 
理 。 这 样 才能 保证 数据 的 可 用 性 ， 也 充分 满足 业务 的 需求 。 

。 通过 建设 数据 生命 周期 管理 系统 ， 规 范 数据 存储 以 及 数据 生命 周期 管理 ， 提 高 系统 运 
行 的 效 认 ， 为 生命 周期 规范 提供 支撑 。 协 助 各 个 业务 系统 实现 统一 的 数据 归档 管理 ， 
降低 业务 系统 的 复杂 度 ， 缩 短 业 务 系统 建设 的 周期 ， 避 免 因 为 系统 重复 开发 而 造成 的 
资源 浪费 ， 市 省 各 个 业务 系统 的 资源 。 实 现 更 快 、 更 方便 的 数据 备份 、 恢 复 和 升级 ， 
减少 系统 停机 的 时 间 。 将 不 经 常 使 用 的 数据 转移 到 存档 的 基础 设施 中 ， 以 降低 物理 存 
储 总 量 ， 克 省 便 件 和 维护 成 本 。 











第 7 章 “商业 智能 架构 理论 


本 章 目标 

通过 前 几 章 的 学 习 ， 我 们 了 解 了 数据 架构 、 大 数据 和 数据 治理 相关 的 知识 和 案例 。 很 多 
企业 已 经 充分 认识 到 数据 是 核心 资产 和 苋 争 力 。 同 时 为 了 提 蜗 企业 的 运 常 效率， 增加 企业 的 
范 争 力 和 领导 者 的 决策 能 力 ， 系 统 应 该 适应 多 渠道 数据 采集 的 能 力 ， 形 成 汇总 功能 型 的 视 
图 。 增 强 历史 与 趋势 分 析 能 力 ， 这 就 需要 IT 人 员 理 解 商业 智能 方面 的 知识 。 

学 习 本 章 后 ， 谈 者 将 掌握: 

。 商业 智能 的 历史 











。 商业 智能 的 定义 

。 商业 智能 的 功能 

。 商业 乔 能 的 发 展 趋势 

。 商业 入 能 的 实施 方法 和 步 又 


e 天 于 商业 智能 的 核心 技术 

e 数据 仓库 理论 

e 数据 仓库 的 特点 

® 数据 挖掘 和 分 析 

e ETL 处 理 技术 

e。 数据 集 市 理论 

® 数据 集 市 产生 原因 

e 数据 集 市 的 定义 

® 数据 集 市 和 数据 仓库 的 联系 和 区 别 
e 可 视 化 分 析 

e 大 数据 技术 

e ODS 理论 

e OLAP 系统 与 OLTP 系统 的 区 别 
e OLAP 的 实现 方法 

e OLAP 模型 的 设计 与 实现 





7.1 商业 智能 概述 


7.1.1 商业 智能 的 历史 
e 1970 年 ，IBM 公司 的 人 研究员 埃 德 加 科 德 发 明了 关系 型 数据 库 。 
e 1979 年 ，Teradata 公司 诞生 。1983 年 ， 该 公司 利用 并 行 处 理 技 术 为 美国 富国 银行 建立 
了 第 一 个 决策 文 持 系 统 。 
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e 1988 年 , IBM 公司 的 研究员 提出 一 个 新 的 概念 ， 数据 仓库 。 
e 1992 年 ， 比 尔 : 恩 门 出 版 了 《如 何 构建 数据 仓库 》 一 书 ， 数 据 仓库 真正 拉 开 了 应 用 


的 序 舌 。 
e 1993 年 ， 拉 和 尔 夫 ' 金 博 尔 出 版 了 《数据 仓库 的 工具 》 一 书 ， 并 把 部 门 的 数据 仓库 叫 
做 “数据 集 市 ”。 


7.1.2 商业 智能 的 定义 


从 全 球 范围 来 看 ， 商 业 乔 能 已 经 成 为 目前 最 具有 发 展 前 景 的 IT 领域 之 一 。 

曾经 看 过 这 样 一 个 例子 ， 美国 条 超市 有 一 个 系统 ， 当 你 采购 了 一 车 的 物品 准备 结账 时 ， 
美丽 的 收银 员 小 姐 扫 完 了 你 的 所 有 物品 后 ， 计 算 机 会 显示 出 一 些 信息 ， 然 后 收银 员 小 姐 会 友 
好 地 问 你 :“ 我 们 有 一 种 一 次 性 纸杯 正在 促销 ， 位 于 xx 仙 架 上 ， 您 要 购 头 吗 ?” 结 果 你 非 第 
惊奇 地 说 :“ 啊 ， 谢 谢 你 ! 我 刚才 一 直 没 有 找到 纸杯 。” 那 么 计算 机 系统 如 何 知道 的 ?秘密 
在 于 当 系 统 知道 你 的 购物 车 里 面 有 矢 巾 纸 、 大 瓶 可 乐 和 沙拉 的 时 候 ， 则 会 计算 出 你 天 一 次 性 
纸杯 的 可 能 性 在 80% 以 上 。 这 就 是 商业 智能 的 一 个 简单 应 用 。 

再 举 一 个 例子 ， 千 能 手机 可 以 内 舱 全 球 卫星 定位 系统 ， 通 过 该 系统 ， 我 们 可 以 找到 最 近 
的 银行 网 点 ， 并 且 可 以 预约 排队 。 同 时 银行 可 以 分 析出 客户 的 豆 好 ， 回 客户 推送 附近 可 以 刷 
卡 打 折 购 物 的 信息 ， 客 户 也 可 以 圣 受 到 各 种 实用 的 银行 服务 。 换 名 话说 ,银行 可 以 利用 商业 
智能 为 我 们 提供 各 种 智能 化 和 个 性 化 的 服务 ， 如 图 7-1 所 示 。 














图 7-1 商业 智能 提供 各 种 智能 化 和 个 性 化 的 服务 





当然 ， 商 业 智 能 的 作用 绝 不仅 限 于 此 。 从 小 型 的 超市 系统 到 国家 银行 、 航 空 、 水 利 、 电 
力 、 铁 路 运输 等 大 型 系统 ， 商 业 智 能 的 应 用 无 处 不 在 。 如 宋 我 们 对 商业 智能 做 一 个 简单 的 定 
义 ， 那 就 是 : 玫 助 用 户 把 一 些 数 据 转 化 成 具有 商业 价值 的 ， 而 且 可 以 获取 的 信息 和 知识 ， 同 
时 在 最 恰当 的 时 候 ， 通 过 某 种 方式 把 信息 传递 给 需要 的 人 。 从 专业 的 角度 来 说 ,商业 乔 能 就 
是 利用 数据 仓库 、 数 据 分 析 和 挖掘 搁 术 ， 以 抽取 、 转 换 、 查 询 、 分 析 和 预测 为 主 的 技术 手 
段 ， 帮 助 企 业 完成 决策 分 析 的 一 僚 解 决 方案 。 

在 上 面 的 例子 中 ， 计 算 机 系统 把 和 餐巾纸、 大 瓶 可 乐 、 沙 拉 等 商品 信息 转化 成 具有 商业 价 
值 的 信息 〈 知 识 ) ， 同 时 在 恰当 的 时 候 把 顾客 需要 一 次 性 纸杯 的 信息 告诉 收银 员 。 商 业 智 能 
的 价值 体现 在 将 数据 转化 成 信息 和 知识 ， 最 后 转化 成 利润 ， 如 图 7-2 所 示 。 

很 多 企业 在 经 过 多 年 的 业务 系统 的 运行 之 后 ,已 经 拥有 了 大 量 的 经 营 数 据 ， 那 么 如 何 将 
这 些 宝贵 的 数据 财富 转化 成 信息 、 知 识 并 传递 给 企业 管理 者 呢 ? 这 就 是 商业 智能 需要 研究 和 
完成 的 工作 。 
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图 7-2 商业 智能 的 价值 


商业 智能 好 像 一 个 采矿 加 工场 ， 它 负责 采集 大 量 的 矿石 ， 然 后 经 过 进一步 的 分 离 、 加 工 
等 操作 ， 最 后 提炼 出 高 纯度 的 精 矿 ， 如 图 7-3 所 示 。 其 实 企业 经 营 和 管理 的 数据 就 是 这 些 
“ 丰 石 ” ， 而 商业 智能 的 作用 就 是 将 这 些 “ 丰 石 ”转化 成 “ 精 人 矿 ”。 














图 7-3 采矿 加 工场 





商业 智能 对 企业 的 重要 性 是 不 言 而 喻 的 ， 它 可 以 提 融 企业 的 运 绽 效率 ， 增 加 苋 争 力 和 领 
导 决 策 能 力 ， 从 而 获得 更 大 的 市 场 ， 提 高 企业 的 利润 。 同 时 也 为 公司 的 管理 人 员 提 供 一 种 全 
新 的 思维 方式 ， 通 过 使 用 这 些 宝贵 的 数据 资产 进行 挫 握 和 分 析 ， 发 现 内 部 谐 在 的 规律 和 赵 
拟 ， 这 样 才能 做 出 准确 的 判断 ， 制 定 出 正确 的 决策 方针 。 此 外 ， 还 优化 了 企业 内 部 组 织 结 
构 ， 增 强 了 企业 资源 的 合理 配置 ， 使 企业 在 苋 争 中 处 于 不 败 之 地 。 


7.1.3 商业 智能 的 功能 介绍 


商业 智能 最 早出 现在 20 世纪 90 年 代 ， 当 时 的 主要 功能 是 查询 报表 、 数 据 分 析 、 数 据 备 
份 和 恢复 等 ， 但 随 着 技术 的 发 展 和 应 
用 的 拓展 ， 商 业 智 能 已 经 扩展 了 其 他 
的 功能 ， 如 图 7-4 所 示 。 

(1 ) 数据 读 取 功能 

除了 读 取 结构 化 数据 ， 还 可 以 读 
取 非 结构 化 数据 和 半 结 构 化 数据 。 

(2) 报表 展示 功能 

例如 ， 利 用 报表 工具 (Cognos、 图 7-4 商业 智能 的 功能 介绍 
BO 等 ) 的 可 视 化 功能 将 数据 呈现 给 用 户 ， 呈 现 的 形式 包括 : 交叉 报表 、 饼 图 、 柱 状 图 、 散 
点 图 、 线 图 、 直 方 图 。 其 中 柱状 图 示例 如 图 7-5 所 示 。 还 可 以 通过 向 下 钻 取 、 数 据 切 片 和 
旋转 以 及 交互 式 的 图 形 分 析 能 力 ， 使 用 户 能 够 从 任何 角度 去 观察 业务 。 











数据 读 取 功 能 


全 一 一 报表 展示 功能 


数据 分 析 挖 掘 功能 
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(3) 数据 分 析 欣 气功 能 
通过 业务 之 间 的 关联 关系 ， 去 探究 事物 发 生 的 概率 。 
(4) 知识 发 现 功能 g0 
知识 发 现 是 从 大 量 的 数据 中 提取 人 们 感 兴 70 
趣 的 知识 的 能 力 ， 这 些 知 识 可 以 是 隐 含 的 、 事 50 
和 完 未 知 的 或 者 潜在 有 用 的 信息 ， 提 取 的 知识 表 “0 
示 为 概念 、 规 则 、 规 律 和 模式 等 形式 。 20 
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(5) 红色 预警 功能 ， 
可 以 基于 数据 仓库 提供 预警 的 功能 。 lstQtr 


(6) 数据 管理 功能 图 7-5 柱状 图 
管理 功能 是 从 多 个 数据 源 抽 取 、 转 换 和 加 载 ， 
以 及 清理 和 集成 数据 的 能 力 ， 包 括 高 效 的 存储 与 维护 的 能 


7.1.4 商业 智能 的 发 展 趋势 


随 着 互联 网 的 普及 和 技术 的 进步 ， 商 业 稼 能 的 发 展 也 成 了 不 可 阻挡 的 趋势 ， 企 业 可 以 通 
过 互联 网 信息 的 收集 ， 获 取 更 多 的 客户 信息 和 交易 信息 ， 通 过 商业 智能 技术 的 应 用 ， 将 这 些 
数据 转化 成 更 有 价值 的 信息 ， 带 助 企业 的 蜗 层 做 出 准确 的 分 析 和 决 案 。 

商业 智能 除了 带 助 企业 管理 人 员 做 出 准确 的 分 析 和 决策 ， 还 可 以 为 客户 提供 各 种 个 性 化 
的 服务 。 例 如 ， 通 过 客户 的 特征 和 以 往 的 交易 情况 ， 分 析出 客户 的 购买 力 和 喜好 ， 从 而 进行 
有 针对 性 的 侣 销 。 这 不 仅 给 商家 市 来 再 接 的 经 济 利 益 ， 同 时 也 可 以 带 助 客户 在 最 短 的 时 间 内 
购买 到 最 需要 的 商品 。 商 业 知 能 的 发 展 必 然 通过 Web 和 局 域 网 的 交互 ， 实 现 信 息 和 知识 的 
共 侍 。 

目前 随 着 商业 智能 技术 的 发 展 ， 增 强 了 对 非 结构 化 数据 的 处 理 能 力 。 以 前 商业 智能 处 理 
的 数据 还 是 以 结构 化 的 信息 为 主 ， 也 就 是 存储 在 内 部 数据 库 中 的 数据 和 文本 。 而 现在 ， 越 来 
越 多 的 企业 已 经 将 各 种 非 结 构 化 数据 当做 主要 的 数据 源 ， 例 如 各 种 客户 的 呼叫 记录 、 影 像 资 
料 、 首 频 资 料 、 文 本 、 图 片 和 各 种 电子 邮件 年 。 

随 春 移动 互联 网 的 发 展 ， 大 大 提高 了 对 金融 数据 的 收集 能 力 ， 包 括 用 户 的 交易 数据 和 行 
为 数据 。 金 融 服 务 的 多 样 化 和 市 场 规模 的 不 断 扩大 ， 和 需要 对 这 些 数 据 进行 深度 挖掘 和 分 析 ， 
匹配 金融 产品 的 交易 需求 ， 发 现 隐藏 的 趋势 信息 ， 让 人 金融 机 构 发 现 商 机 。 

为 了 实现 经 济 快速 发 展 的 目标 ， 很 多 制造 、 能 源 企业 必 将 大 力 发 展商 业 智 能 拉 术 ， 加 大 
对 商业 智能 解决 方案 的 投入 ， 从 而 降低 生产 成 本 ， 提 高 资源 利用 率 和 市 场 占 有 率 ， 使 其 生产 
运 彰 能 够 健康 平稳 的 发 展 。 


7.1.5 商业 智能 的 实施 方法 和 步 又 









































1， 商 业 智 能 的 实施 方法 
商业 智能 的 实施 方法 包括 项 目 规 划 、 系 统 设 计 与 实现 、 系 统 调 优 以 及 系统 运行 及 维护 ， 
如 图 7-6 所 示 。 
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上 系统 运行 及 维护 





图 7-6 商业 智能 的 实施 方法 


(1) 项 目 规划 

项 目 规 划 主 要 包括 项 目前 期 的 准备 、 业 务 现状 的 调研 、 目 前 系统 的 现状 分 析 。 分 析 内 容 
包括 业务 需求 的 定义 和 系统 实现 的 目标 ， 系 统 运 行 环境 的 定义 ， 系 统 的 框架 绪 构 定义 ， 逻 辑 
模型 的 设计 等 。 

(2) 系统 设计 与 实现 

系统 设计 与 实现 主要 包括 系统 体系 结构 的 设计 ， 物理 数据 库 的 设计 ， 数 据 抽取 、 转 换 和 
加 载 的 实现 ， 前 端 应 用 的 开发 ， 元 数据 的 管理 等 内 容 。 

(3) 系统 调 优 

系统 调 优 主要 指 逻辑 、 物 理 模 型 的 调整 ， 系 统 性 能 的 调 优 。 

(4) 系统 运行 及 维护 

系统 运行 及 维护 主要 指 编写 系统 运行 及 维护 手册 ， 以 及 用 户 操作 手册 、 培 训 教 材 等 
文档 。 

2. 商业 智能 的 实施 步 又 

商业 智能 的 实施 步骤 包括 定义 需求 ， 数 据 仓库 模 型 的 建设 ， 数 据 抽 取 、 清 洗 、 转 换 、 加 
载 ， 建 立 商 业 智 能 分 析 报 表 ， 如 图 7-7 所 示 。 


商业 智能 的 实施 步骤 


数据 仓库 模型 、 请 洗 、 建立 商业 智能 
、 分 析 报表 





图 7-7 商业 智能 的 实施 步 又 
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(1 ) 定义 需求 

需求 分 析 是 商业 智能 项 目 重要 的 一 步 ， 需 要 描述 项 目 背 景 与 目的 、 业 务 范围 、 业 务 目 
标 、 业 务 需求 和 功能 需求 等 内 容 ， 明 确 企 业 对 商业 智能 的 期 望 和 需要 分 析 哪 些 主题 等 方面 。 
其 中 项 目 背景 主要 描述 已 有 系统 的 当前 现状 是 什么 ， 以 及 不 同 的 历史 时 期 ， 它 的 业务 需求 分 
别 是 什么 。 这 些 独立 的 信息 系统 特点 一 般 是 缺乏 统一 的 整体 规划 和 标准 ， 数 据 分 散 ， 每 个 业 
务 之 间 不 能 共享 信息 ， 报 表 展 示 功 能 单一 ， 各 业务 系统 之 间 存 在 数据 不 一 致 的 现象 ， 企 业 领 
导 层 无 法 从 全 局 的 角度 对 业务 进行 综合 分 析 。 

商业 智能 项 目 最 重要 的 目的 之 一 是 解决 各 个 业务 系统 之 间 数 据 集中 整合 的 问题 ， 为 企业 
管理 人 员 提 供 高 效 的 数据 查询 和 强大 的 报表 展示 功能 ， 同 时 能 够 进行 多 维度 的 深入 分 析 和 数 
据 挖 气 ， 为 企业 未 来 的 经 营 状 况 做 出 准确 的 预测 。 

业务 范围 是 对 项 目 团 队 所 有 人 员工 作 范 围 的 界定 。 

业务 需求 是 描述 客户 对 于 系统 实现 的 总 体 性 要 求 ， 商 业 智能 项 目的 特点 是 从 不 同 的 维度 
去 分 析 各 个 主题 ， 以 报表 的 形式 对 业务 进行 曾 述 。 功 能 需求 可 以 包含 : 各 个 业务 专题 分 析 、 
关键 性 指标 查询 和 监控 、 报 表 查 询 、 高 级 分 析 和 数据 挖掘 等 内 容 。 

商业 智能 的 功能 框架 如 图 7-8 所 示 。 























| 数据 集 市 层 





数据 仓库 


| 外 部 数据 源 ee ee es a | 
图 7-8 商业 和 贸 能 功能 框 淋 图 


(2) 数据 仓库 模型 的 建设 

模型 是 对 现实 世界 的 抽象 。 数 据 仓 库 模 型 是 在 需求 分 析 的 基础 上 建立 起 来 的 。 数 据 模型 
的 设计 流程 是 : 在 系统 设计 、 开 发 之 前 ， 业 务 人 员 和 设计 人 员 共 同 参与 概念 模型 的 设计 ， 核 
心 的 业务 概念 在 业务 人 员 和 设计 人 员 之 间 达 成 一 致 。 在 系统 设计 开发 时 ， 业 务 人 员 和 系统 设 
计 人 员 共 同 参与 逻辑 模型 的 设计 。 最 后 ， 设 计 开 发 人 员 以 逻辑 模型 为 基础 进行 物理 模型 的 
设计 。 

(3) 数据 抽取 、 清 洗 、 转 换 、 加 载 

。 数据 抽取 

抽取 主要 负责 将 数据 仓库 需要 的 数据 从 各 个 业务 系统 中 抽取 出 来 。 如 采 每 个 业务 系统 的 
数据 情况 各 不 相同 ， 可 能 对 每 个 数据 源 都 需要 建立 独立 的 抽取 流程 ， 每 个 流程 都 需要 使 用 接 
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口 将 源 数据 传送 给 下 一 环节 ， 即 清洗 与 转换 阶段 。 通 过 数据 抽取 程序 ， 可 以 从 业务 源 系统 中 
不 断 地 将 数据 抽取 出 来 ,抽取 周期 可 以 设 定 为 菏 个 固定 时 间 ， 例 如 每 天 中 午 12 操 对 源 数 据 
进行 抽取 ， 也 可 以 设 定 为 茶 个 时 间 间 隔 ， 例 如 每 6 个 小 时 抽取 源 数据 一 次 。 

。 数据 清洗 

清洗 阶段 是 对 业务 源 数据 的 清洗 和 确认 ， 检 查 抽 取 的 源 数据 质量 是 否 达 到 数据 仓库 的 规 
定 标准 。 数 据 清洗 大 致 有 两 种 方式 : (DD 不 同业 务 系统 间 各 自 专 用 的 清洗 程序 ， (2 不 同业 务 
系统 间 有 满足 数据 仓库 清洗 需求 的 通用 程序 ， 从 不 同业 务 系统 抽取 的 数据 有 可 能 存在 数据 不 
一 致 的 情 次 ， 可 以 使 用 相关 规则 和 标准 检查 业务 源 效 据 的 质量 。 

® 数据 苇 换 

转换 是 对 源 系 统 的 数据 在 最 后 一 步 进 行 的 修改 ， 包 括 对 源 数据 的 聚合 以 及 各 种 计算 ， 是 
整个 ETL 过 程 的 核心 部 分 。 

® 数据 加 或 

加 载 是 将 数据 加 载 到 最 后 的 目标 表 中 ， 其 复杂 度 没有 转换 局， 一 般 采 用 批量 疙 载 的 
形式 。 

(4) 建立 商业 智能 分 析 报 表 

商业 智能 分 析 报 表 通 过 对 数据 仓库 的 数据 分 机， 使 企业 的 高 层 领导 可 以 多 角度 地 查看 企 
业 的 运营 情况 ， 并 且 按 照 不 同 的 方式 去 探查 企业 内 部 的 核心 数据 ， 从 而 更 好 地 帮助 企业 决 宁 
人 员 对 公司 未 来 经 音 状 况 进 行 预测 和 判断 。 


7.1.6 商业 千 能 项 目 成 功 的 关键 


商业 智能 项 目 成 功 的 关键 因 系 如 下 。 

1) 企业 高 级 领导 层 对 商业 智能 项 目的 文 持 和 雄厚 的 质 金 是 项 目 成 功 的 关键 因 系 之 一 。 

2) 拥有 实力 雄厚 的 技术 团队 。 技 术 团 队 成 员 不 仅 精 通商 业 智 能 相关 技术 ， 同 时 也 熬 悉 
相关 的 业务 规则 和 开发 流程 。 

3) 商业 智能 项 目 团队 的 协同 合作 能 力 。 项 目的 管理 者 需要 保证 团队 中 每 个 成 员 分 工 明 
硝 ， 沟 通 及 时 ， 并 且 需 要 各 部 门 之 间 有 民 好 的 合作 能 力 。 总 之 ， 商 业 智能 项 目的 实施 是 一 个 
长 期 的 不 断 完 善 的 过 程 。 


7.1.7 关于 商业 智能 的 核心 技术 
商业 智能 实质 上 是 数据 转化 成 信息 









































和 知识 的 过 程 。 构 建 一 个 完整 的 商业 智 | 的 核心 技术 

能 系统 需要 以 下 几 种 核心 的 技术 : 数据 : 一 本 _ 

仓库 、 数 据 挖掘 和 分 析 、ETL 处 理 技 术 、 

联机 分 析 处 理 (OLAP ) 技术 、 可 视 化 分 . 数据 仓库 . 可 视 化 分 析 

析 、 大 数据 技术 、 商 业 智 能 元 数据 管理 ， . 数据 挖掘 和 分 析 . 大 数据 技术 

如 图 7-9 所 示 。 . ETL 处 理 技术 . 商业 智能 元 数据 管理 
1， 数据 仓库 联机 分 析 处 理 技术 
数据 仓库 之 父 一 一 比尔 . 恩 门 在 

《如 何 构建 数据 仓库 》 一 书 中 将 数据 仓库 和 
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定义 为 :“ 数 据 仓 库 是 在 企业 管理 和 决策 中 面向 主题 的 、 集 成 的 、 时 变 的 、 非 易 失 的 (不 可 
修改 的 ) 数据 集合 ”。 实 质 上 ， 数 据 仓库 是 对 数据 人 处理 技术 的 集成 ， 它 是 为 了 进一步 挖掘 数 
据 资 源 ， 为 了 决策 分 析 而 产生 的 。 数 据 仓 库 的 目的 是 为 了 前 端 报 表 查 询 和 决策 分 析 。 

数据 仓库 与 传统 数据 库 的 区 别 是 : 传统 数据 库 主 要 用 于 企业 日 各 的 事务 处 理 ， 而 数据 仓 
库 主 要 用 于 商业 分 析 ， 在 不 影响 日 第 业务 处 理 的 前 提 下 ， 辅 助 企业 高 层 进 行商 业 决 策 。 

最 终 用 户 对 数据 仓库 的 访问 方式 包括 : 即席 查询 、 报 表 、 联 机 分 析 处 理 (OLAP)、 数 
据 挖 气 ， 如 图 7-10 所 示 。 








即席 查询 


孝 所 他 的 
联机 分 析 处 理 se 数据 挖掘 





图 7-10 数据 仓库 的 访问 方式 

2. 数据 挖掘 和 分 析 

数据 挖掘 (DataMining) 起 源 于 1989 年 8 月 ,出 自在 美国 底特律 举办 的 第 11 届 国 际 联合 
人 工 智 能 学 术 会 议 中 Piatetsky - Shapiro 提出 的 KDD (Knowledse Discovery and DataMining)。 数 
据 挖掘 是 指 从 海量 的 数据 中 抽取 出 有 意义 的 、 重 要 的 和 潜在 有 用 的 信息 和 知识 的 过 程 。 从 技 
术 上 来 说 ， 数 据 挖掘 是 一 门 交 又 学 科 ， 融 合 了 统计 和 学、 人 工 入 能、 模式 识别 、 机 带 学 习 征 
内 容 。 

数据 挖掘 的 工作 过 程 可 以 包括 数据 的 抽取 、 存 储 管理 、 控 据 和 展现 等 儿 个 部 分 ， 如 
图 7-11 所 示 。 





数据 的 抽取 存储 管理 





图 7-11 数据 挖掘 的 工作 过 程 


® 数据 的 抽取 
所 谓 抽取 就 是 将 数据 从 外 部 数据 源 或 者 其 他 联机 事物 处 理 系 统 中 导入 到 数据 仓库 或 者 其 
他 数据 库 中 。 
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e。 存储 管理 

存储 管理 主要 针对 如 何 管理 海量 的 数据 、 优 化 碍 询 效 率 和 处 理 各 种 并 发 数据 等 。 

e。 挫 掘 

控 据 就 是 利用 各 种 的 挖 据 算 法 得 到 相应 知识 的 过 程 。 

e 展现 

最 后 的 数据 展现 就 是 实现 各 种 的 预定 义 查 询 、 动 态 报表 查询 等 内 容 ， 展 示 的 方式 包括 各 
种 的 下 方 图 、 动 态 模 拟 和 人 饼 图 等 。 和 人 简单 地 说 ， 数 据 挖 据 就 是 将 对 数据 的 简单 查询 提升 到 控 气 
言 息 和 知识 的 过 程 。 

数据 挖掘 和 分 析 主 要 用 于 从 大 量 的 数据 中 发 现 痛 后 隐藏 的 规律 和 数据 间 的 关系 。 及 用 数 
据 挖 掘 技术 ， 可 以 为 用 户 提供 目 动 化 和 智能 的 辅助 决策 分 析 。 特 别 是 在 金融 行业 、 和 零售 业 和 
医疗 卫生 领域 ， 都 有 大 量 的 应 用 。 

在 数据 挖 据 技 术 中 ， 和 营 用 的 模型 有 : 分 类 模型 、 关 联 模 型 、 顺 序 模 型 和 聚 簇 模 型 ， 如 
图 7-12 所 示 。 


(1) 分 类 模型 



































根据 商业 数据 的 属性 将 数据 分 配 到 不 同 ;yew Ne 
的 组 中 。 他 一 
(2) 关联 模型 sl 
主要 描述 一 组 数据 项 目的 密切 度 和 关系 。 加 
(3) 顺序 模型 国 


主要 用 于 汇总 数据 中 的 常见 顺序 或 事件 。， 一 他 


顺序 模型 可 以 看 成 是 一 种 特殊 的 关联 模型 ， 
它 在 关联 模型 中 增加 了 时 间 属 性 。 

(4) 聚 簇 模型 

按照 某 种 相近 程度 将 数据 分 成 一 些 组 。 组 中 的 数据 相近 ， 组 之 间 的 数据 相差 较 大 。 

数据 挖掘 是 一 个 闭环 的 、 反 复 循 环 的 过 程 ， 需 要 业务 分 析 人 员 、IT 工程 师 共 同 完 成 。 
一 般 来 说 ， 它 有 以 下 儿 个 步骤 . 

1) 对 业务 范围 的 定义 ,在 这 个 阶段 需要 明确 对 数据 挖掘 的 目标 和 和 定位， 制定 数据 挖掘 
的 计划 。 

2) 选择 合适 的 数据 ， 和 定义 相关 的 训练 数据 集 和 验证 数据 集 等 内 容 。 

3) 对 数据 进行 探索 分 析 ， 使 数据 集 尽 可 能 满足 建 模 算法 的 要 求 。 

4) 分 析 并 且 确 定数 据 挖掘 模型 。 建 模 人 员 需 要 不 断 地 测试 模型 性 能 ， 从 而 选择 最 佳 的 
数据 模型 。 

5) 模型 实施 和 评价 。 通 过 模型 实施 的 结果 帮助 相关 人 员 做 出 战略 决策 。 同 时 收集 结果 
反馈 ， 判 断 是 否 需 要 改进 模型 。 

我 们 可 以 引用 商业 智能 的 概念 。 决 策 人 员 以 企业 级 数据 仓库 为 基础 ， 利 用 联机 分 析 人 处 理 
工具 、 数 据 控 掘 工具 ， 加 上 决策 人 员 的 专业 知识 ， 从 数据 中 获得 有 用 的 信息 和 知识 ， 帮 助 企 
业 获 取 利 润 ， 而 数据 挖掘 就 是 建立 在 数据 仓库 基础 上 的 增值 技术 。 

数据 仓库 和 数据 挖掘 之 间 的 关系 如 网 7-13 所 示 。 

数据 仓库 是 为 了 文 持 企业 决策 分 析 的 数据 集合 。 它 是 面 回 主 题 的 、 集 成 的 、 稳 定 的 ， 并 
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图 7-12 ”数据 挖掘 技术 中 常用 的 模型 


























且 随 时 间 发 生变 化 。 它 的 关键 技术 包括 数据 的 抽 os 
取 、 清 洗 、 转 换 、 加 载 和 维护 技术 。 

数据 挖掘 是 从 海量 的 数据 中 ， 抽 取出 有 意义 
的 、 潜 在 有 用 的 信息 和 知识 的 过 程 。 数 据 控 气 的 
数据 来 源 可 以 是 数据 仓库 或 者 其 他 数据 库 。 对 于 
挖掘 的 数据 需要 进行 选择 ， 挫 掘 的 结果 需要 进行 
评 佑 ， 按 照 评 佑 结果 的 不 同 ， 一般 需 要 重新 分 析 
和 计算 。 \ 

数据 挖 气 可 以 对 数据 仓库 中 的 历史 数据 进行 提 。 yywny” 
炼 和 挖 据 ， 使 得 这 些 数 据 成 为 信息 和 知识 。 可 以 从 
助 对 历史 数据 的 分 析 ， 发 现 数据 内 部 有 价值 的 
规律 。 

数据 仓库 是 数据 挖 气 的 基础 。 因 为 数据 仓库 的 数据 是 完整 的 、 集 成 的 ， 所 以 它 为 数据 挖 
掘 提 供 了 扎实 的 数据 基础 。 数 据 仓 库 可 以 为 数据 挖掘 提供 需要 的 历史 数据 和 全 面 的 数据 处 
理 、 分 析 等 基础 设施 。 

3. ETL 处 理 技 术 

ETL 即 数据 抽取 (Extract) 、 转 换 (Transform ) 、 装 载 (Load) 的 过 程 。 它 是 构建 数据 
仓库 系统 的 关键 环节 。 因 为 数据 仓库 主要 存储 面 回 主题 的 、 集 成 的 、 稳 定 的 并 且 随 时 间 不 断 
变化 的 数据 集合 ， 所 以 数据 在 进入 到 仓库 之 前 ， 需 要 经 过 清洗 、 转 化 的 过 程 ， 保 证 数据 仓库 
的 数据 是 准确 的 。ETL 的 作用 就 是 解决 数据 集成 化 的 问题 。 

ETL 过 程 中 包含 一 些 灵 活 的 计算 、 汇 总 、 字 段 拆 分 、 字 段 合 并 、 数 据 比 较 、 过 滤 、 混 合 
运算 等 内 容 ， 还 包括 对 目 定 义 困 数 的 文 持 、 复 杂 条 件 的 过 滤 、 数 据 的 批量 加 载 、 时 间 类 型 的 
转换 、 多 种 数据 类 型 支持 、 去 重复 记录 等 功能 。 

在 数据 仓库 系统 中 ，ETL 占有 重要 的 地 位 。ETL 作为 一 种 数据 整合 解决 方案 ,已 经 上 升 
到 了 一 种 理论 的 高 度 。FETL 在 数据 仓库 中 具有 以 下 两 个 特点 。 

1) 数据 流动 具有 周期 性 。 一 般 来 说 ， 了 商业 智能 ETL 按照 某 种 业务 抽取 规则 周期 性 运 
行 ， 每 次 运行 都 会 加 载 新 的 数据 到 目标 库 中 。 

2) 因为 数据 仓库 中 的 数据 量 巨大 ， 所 以 一 般 采 用 成 熟 的 ETL 工具 去 完成 抽取 、 转 换 、 
加 载 工 作 ， 以 降低 设计 开发 和 维护 的 复杂 度 ， 使 设计 开发 人 员 有 更 多 的 时 间 专 注 于 业务 转化 
规则 。 

ETL 是 数据 仓库 项 目 中 最 艰难 且 耗 时 最 长 的 工作 之 一 。ETL 系统 的 设计 和 开发 工作 对 商 
业 智 能 项 目的 成 败 产生 至 关 重 要 的 影响 。 如 果 把 数据 仓库 项 目 看 成 一 座 大 厦 的 话 ， 那 么 数据 
模型 就 像 图 样 ， 而 ETL 就 是 建造 这 座 大 厦 的 过 程 。 而 作为 从 事 商业 智能 的 专业 人 士 ， 需 要 
真正 理解 ETL 理论 方面 的 知识 ， 而 不 仅仅 俘 留 在 ETL 工具 的 使 用 上 ， 因 为 只 有 这 样 ， 才 能 
更 好 地 发 挥 它 的 作用 。 

4. 联机 分 析 处 理 技 术 

联机 分 析 处 理 (OLAP) 技术 主要 通过 多 维 的 方式 对 数据 进行 分 析 、 查 询 和 报表 处 理 。 
这 种 决策 分 析 是 基于 多 维 的 和 历史 数据 的 。 

联机 分 析 处 理 是 数据 仓库 应 用 的 前 端 工 具 ， 同 时 可 以 与 数据 挖掘 工具 配合 使 用 ， 以 增强 
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数据 库 其 他 数据 源 


图 7-13 ”数据 仓库 和 数据 挖掘 之 间 的 关系 





















































决策 分 析 的 功能 。 

OLAP 的 基本 目标 就 是 文 持 决策 分 析 和 多 维 数 据 查 询 。OLAP 通过 对 信息 的 各 种 形式 的 
存 取 ， 满足 企 业 决 策 人 员 和 管理 人 员 对 复杂 查询 的 处 理 ， 并 且 将 结果 提供 给 决策 分 析 人 员 ， 
使 他 们 对 企业 的 运营 状况 有 更 深入 的 了 解 ， 能 够 制定 出 正确 的 决策 方针 。 形 象 地 说 ，OLAP 
是 引领 企业 发 展 的 “灯塔 ”。 

OLAP 系统 的 特点 包含 以 下 几 个 方面 ， 如 图 7-14 所 示 。 

1) 丰富 的 报表 展示 功能 : OLAP 系统 一 般 有 
丰富 的 报表 展示 功能 ， 如 柱 形 图 、 折 线 图 、 人 饼 





2 富 的 报表 展示 
形 图 。 、 ”功能 
2) 数据 访问 和 多 维 分 析 的 能 力 ， 提 供给 用 WE 
数据 访问 和 多 维 快速 的 数据 分 析 
加 能 


户 数据 访问 和 多 维 分 析 的 能 力 ， 并 以 用 户 希 望 的 分 析 的 能 力 人 
方式 进行 展示 。 AS 

3) 快速 的 数据 分 析 能 力 : OLAP 系统 有 秒 级 mn 
的 数据 分 析 能 | 

5， 可 视 化 分 析 

“一 图 胜 千言 ”， 虽 然 图 形 可 以 传达 大 量 信 和 
息 ， 但 是 图 形 一 定 要 干 淆 、 清 晰 ， 同 时 传达 出 重要 的 信息 。 很 多 企业 领导 或 者 分 析 人 员 看 到 
复杂 的 图 形 时 ， 可 能 会 非常 苦 昼 。 

数据 可 视 化 分 析 是 指数 据 用 各 种 图 像 处 理 技术 ， 将 数据 转化 成 各 种 图 表 的 方法 和 手段 。 
例如 ， 数 据 可 以 用 饼 图 、 散 点 图 、 直 方 图 和 柱状 图 等 方式 进行 展示 。 它 们 是 数据 可 视 化 的 基 
础 。 但 是 面 对 复杂 的 数据 集 ， 比 如 财务 报表 、 用 户 行为 数据 ， 可 以 用 立体 、 多 维 或 者 动态 实 
时 的 方式 进行 展示 。 数 据 可 视 化 本 身 可 以 看 做 是 一 门 艺术 。 

数据 可 视 化 分 析 的 特点 如 图 7-15 所 示 。 














用 户 和 数据 之 间 的 交互 性 和 多 维 性 
通过 交互 的 方式 管理 和 使 用 户 可 以 用 多 个 角度 去 分 


用 数据 ， 通 过 图 形 或 者 多 析 数 据 
维 图 形 的 方式 对 数据 进行 
可 视 化 分 析 





图 7-15 数据 可 视 化 分 析 的 特点 


数据 可 视 化 分 析 的 功能 如 下 : 
1) 通过 可 视 化 扩 术 ， 和 辅助 进行 数据 关联 分 析 。 
2) 通过 可 视 化 技术 ， 识 别 和 预测 活动 ， 帮 助 高 层 人 员 做 出 及 时 和 准确 的 决策 。 
e 数据 可 视 化 的 过 程 
复杂 的 数据 可 视 化 包括 数据 的 采集 、 数 据 分 析 和 挖掘 等 一 系列 的 过 程 ， 然 后 由 技术 人 员 
以 立体 、 多 维 或 者 实时 动态 的 方式 将 数据 展示 出 来 。 
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e 数据 可 视 化 的 目的 

数据 的 可 视 化 是 为 了 观察 和 跟踪 各 种 数据 ， 生 成 实时 的 、 可 读 性 强 的 图 表 ; 分 析 数 据 ， 
生成 交互 式 的 图 表 ; 发 现 数据 之 间 的 潜在 关系 ， 生 成 多 维 图 表 ， 以 及 多 角度 的 分 析 数 据 ， 帮 
助 用 户 深刻 地 理解 数据 含义 和 变化 。 

数据 可 视 化 可 以 有 多 种 表现 形式 ， 如 图 7-16 ~ 图 7-18 所 示 。 
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图 7-16 数据 可 视 化 的 表现 形式 之 一 
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图 7-17 数据 可 视 化 的 表现 形式 之 二 


6， 商业 智能 元 数据 管理 

在 商业 智能 领域 中 ， 元 数据 定义 为 : 在 数据 仓库 系统 的 建 
立 、 维 护 、 管 理 和 使 用 过 程 中 ， 用 以 描述 实际 数据 的 信息 ， 是 
关于 数据 的 数据 。 在 商业 智能 系统 的 建设 过 程 中 ， 元 数据 占有 
非常 重要 的 地 位 ， 它 不 仅 定 义 了 数据 仓库 的 许多 对 象 ， 例 如 表 
结构 、 所 有 的 字段 列 等 属性 ， 还 包括 对 数据 仓库 内 部 数据 流动 
和 业务 规则 的 描述 。 元 数据 的 框架 图 如 图 7-19 所 示 。 

元 数据 管理 是 整个 商业 智能 系统 中 最 重要 的 环节 之 一 。 元 数 
据 管理 贯穿 于 商业 智能 系统 数据 “流动 ”的 全 过 程 ， 主 要 包括 
数据 源 元 数据 、 采 集 元 数据 、 数 据 仓库 元 数据 、 数 据 集 市 元 数 。 图 7-18 数据 可 视 化 的 
据 、 应 用 服务 层 元 数据 等 。 表现 形式 之 三 

元 数据 的 分 类 主要 包括 业务 元 数据 、 技 术 元 数据 和 管理 元 数据 ， 如 图 7-20 所 示 。 
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图 7-19 元 数据 的 框架 网 图 7-20 ”元 数据 的 分 类 
e 业务 元 数据 


业务 元 数据 可 以 分 成 业务 规则 、 业 务 指标 、 业 务 描 述 和 业务 术语 等 4 个 部 分 。 这 4 个 音 





分 共同 完成 对 业务 信息 的 表述 。 
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DA 9 


。 技术 元 数据 

拉 术 元 数据 包含 关于 商业 管 能 系统 技术 层面 的 信息 ， 描 述 了 数据 源 接 口 、ETL 映射 关 
数据 仓库 和 数据 集 市 等 系统 的 特征 。 

。 管理 元 数据 

管理 元 数据 主要 是 指 商业 智能 系统 日 稼 建设 过 程 中 涉及 开发 、 运 维 管理 各 方面 的 基本 信 
在 此 基础 上 对 系统 需求 开发 和 日 间 运 维 管理 提供 文 持 。 

元 数据 在 商业 管 能 项 目 中 占有 非 第 重要 的 地 位 ， 是 数据 仓库 系统 的 灵 瑰 和 核心 。 数 据 仓 


库 系 统 在 建设 的 过 程 中 产生 的 数据 源 定义 、 转 换 规则 的 定义 、 目 标 库 的 定义 都 存储 在 元 数据 
库 中 。 元 数据 还 文 桂 以 下 几 种 功能 : 


下 
录 ， 


1) 描述 数据 仓库 系统 存在 哪些 数据 。 

2) 描述 哪些 数据 是 在 数据 仓库 系统 中 产生 的 。 

3) 描述 哪些 数据 将 要 抽取 到 数据 仓库 系统 中 。 

4) 评 售 数 据 质 量 的 好 坏 。 

5) 记录 数据 抽取 工作 的 执行 情况 。 元 数据 为 企业 建设 数据 仓库 系统 提供 了 详细 的 记 
并 且 保 证 了 数据 的 一 致 性 和 准确 性 。 因 此 ， 元 数据 对 于 数据 仓库 系统 的 开发 和 管理 是 非 


常 重要 的 ， 具 有 决定 性 的 意义 。 


7.2 商业 智能 一 数据 仓库 理论 概述 


7.2.1 数据 仓库 的 概念 





数据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 非 易 失 的 、 反 映 历史 变化 的 、 随 着 时 间 的 流逝 发 
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生变 化 的 数据 集合 ， 它 主要 用 来 文 持 企 业 管理 人 员 的 决 宁 分 析 。 

数据 仓库 中 面 问 主题 的 特性 是 根据 业务 的 不 同 而 进行 的 内 容 划分 。 数 据 仓库 的 集成 特性 
征 因为 不 同 的 业务 源 数据 具有 不 同 的 数据 特点 ， 当 业务 源 数 据 进 入 到 数据 仓库 时 ， 需 要 采用 
统一 的 编码 格式 进行 数据 加 载 ， 从 而 保证 数据 仓库 中 数据 的 唯一 性 。 数 据 仓库 的 非 易 失 性 是 
指数 据 仓库 通 第 保存 数据 不 同 历史 时 期 的 各 种 状态 ， 并 不 对 数据 进行 任何 更 新 操作 。 数 据 仓 
库 的 历史 特性 是 指数 据 你 留 时 间 惟 字段 ， 记 录 每 个 数据 在 不 同时 间 扣 的 各 种 状态 。 


7.2.2 数据 仓库 的 特点 
数据 仓库 的 主要 特点 如 图 7-21 所 示 。 


反映 历史 变化 面 癌 主题 














稳定 性 





图 7-21 数据 仓库 的 主要 特点 


1. 面 癌 主题 

普通 的 操作 型 数据 库 主要 是 面向 事务 性 处 理 ， 而 数据 仓库 中 的 所 有 数据 一 般 按 照 主 题 进 
行 划分 ， 主 题 是 对 业务 数据 的 一 种 抽象 ， 是 从 较 高 层次 上 对 信息 系统 中 的 数据 进行 归纳 和 
整理 。 

面向 主题 的 数据 组 织 可 以 分 成 两 部 分 : 根据 原 系 统 业 务 数 据 的 特点 进行 主题 的 抽取 和 确 
定 每 个 主题 所 包含 的 数据 内 容 是 什么 。— 典 型 的 主题 包括 客户 主题 、 产 品 主题 、 财 务 主题 等 ， 
其 中 客户 主题 包括 客户 基本 信息 、 客 户 信用 信息 、 客 户 资产 信息 等 内 容 。 我 们 在 分 析 数 据 仓 
库 主 题 的 时 候 ， 一 般 的 方法 是 先 确 定 几 个 基本 的 主题 ， 然 后 将 范围 扩大 ， 最 后 “逐步 
求 精 ”。 

2. 集成 

数据 集成 是 数据 仓库 的 主要 特点 之 一 。 

1) 数据 仓库 是 多 个 数据 源 的 绽 合 和 汇总 。 

2) 对 于 数据 仓库 来 说 ， 数 据 必 须 转 换 成 统一 的 格式 。 

3) 在 数据 仓库 系统 的 建设 过 程 中 ， 数 据 集成 工作 占 到 系统 建设 的 80% 以 上 。 

4) 数据 仓库 中 的 数据 经 过 源 系 统 的 抽取 、 清 洗 、 转 换 、 加 载 得 到 ， 为 了 保证 数据 不 存 
在 二 义 性 ， 对 源 数 据 进 行 编码 的 统一 和 必要 的 汇总 ， 以 保证 仓库 内 数据 的 一 致 性 。 数 据 仓库 
在 经 历 集 成 阶段 后 ， 使 得 数据 仓库 中 的 数据 遵循 统一 的 编码 规则 。 

集成 一 般 有 两 种 形式 ， 如 图 7-22 所 示 。 

e 数据 的 集成 

当 数 据 从 操作 型 数据 库 传 问 数据 仓库 时 ， 数 据 就 会 被 集成 。 

e 编码 的 集成 

当 数 据 仓库 是 从 原 有 分 散 的 源 数据 库 抽 取出 来 的 时 候 ， 为 了 消除 编码 的 不 一 致 性 ， 需 要 
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图 7-22 集成 一 般 有 两 种 形式 








将 这 些 来 目 不 同 数 据 源 的 数据 编码 集成 起 来 ， 使 之 遵循 统一 的 编码 规则 。 

3. 稳定 性 

数据 仓库 中 的 数据 反映 的 都 是 一 段 历 史 时 期 的 数据 内 容 ， 它 的 主要 操作 是 查询 、 分 析 而 
不 进行 一 般 意 义 上 的 更 新 , 一旦 某 个 数据 进入 到 数据 仓库 后 ,一 般 情 况 下 ， 数 据 会 被 长 期 保 
留 ， 当 超过 规定 的 期 限时 ， 才 会 被 删除。 通常 数据 仓库 需要 做 的 工作 就 是 加 载 、 查 询 和 分 
析 ， 一 般 不 进行 任何 修改 操作 ， 是 为 了 企业 高 屋 人 员 决 策 分 析 之 用 。 

4. 有 反映 历史 变化 

操作 型 数据 库 主 要 反映 某 一 时 间 有 段 内 的 数据 ， 而 数据 仓库 的 目标 就 是 对 企业 的 发 展 趋势 
做 出 分 析 和 预测 。 数 据 仓 库 不 断 地 从 OLTP 数据 库 中 获得 变化 的 数据 ， 从 而 形成 分 析 和 预测 
需要 的 历史 数据 ， 所 以 一 般 数据 仓库 中 数据 表 的 键 码 都 含有 时 间 项 ， 以 标明 数据 的 历史 时 期 
音 上 县 ， 然 后 不 断 地 增加 新 的 数据 内 容 。 

通常 来 说 ， 数 据 仓 库 包 含 的 时 间 期 限 大 概 是 5 ~ 10 年 ， 当 超出 规定 的 期 限时 ， 需 要 删除 
这 些 过 时 的 数据 。 通 过 这 些 历史 信息 可 以 对 企业 的 发 展 历 程 和 趋势 做 出 分 析 预 测 。 同 时 我 们 
要 清楚 ， 数 据 仓库 的 建设 需要 大 量 的 业务 数据 作为 积累 ， 而 将 这 些 宝 贯 的 历史 信息 经 过 加 
工 、 整 理 ， 最 后 提供 给 决策 分 析 人 员 ， 这 是 数据 仓库 建设 的 根本 目的 。 


7.2.3 ”数据 仓库 和 数据 库 之 间 的 区 别 


数据 库 生 产 系 统 主 要 是 面向 应 用 的 、 事 务 型 的 数据 处 理 ， 一 般 来 说 ， 有 具有 实时 性 较 高 、 
数据 检索 量 较 小 、 普 通用 户 的 数量 较 大 等 特点 。 而 数据 仓库 系统 主要 面 问 主题 的 、 分 析 型 的 
数据 处 理 ， 实 时 性 要 求 不 高 ， 数 据 检 索 量 较 大 ， 主 要 针对 特殊 的 用 户 群 体 〈 一 般 是 企业 高 
层 领 导 、 决 策 分 析 人 员 每 )， 用 户 的 数量 较 小 。 

其 中 事务 型 处 理 数据 和 分 析 型 处 理 数据 是 有 区 别 的 。 

一 般 来 说 ， 事 务 型 处 理 数据 对 性 能 的 要 求 较为 严格 ,数据 是 事务 驱动 的 ， 主 要 面 丫 应 
用 ,存储 的 一 般 虱 是 具备 即时 性 、 细 市 性 特点 的 数据 ， 数 据 是 可 更 新 的 。 

对 于 分 析 型 处 理 数 据 ， 一 般 来 说 ,对 性 能 的 要 求 较 高 ， 数 据 是 分 析 驱 动 的 ， 主 要 面向 决 
条 分 析 ， 存 储 的 一 般 痢 是 历史 、 汇 总 性 的 数据 ， 数 据 是 不 可 更 新 的 。 

相 比 其 他 系统 ， 数 据 仓 库 系统 有 哪些 优势 呢 ? 有 下 面 几 种 : 

1) 数据 仓库 系统 可 以 获取 生产 系统 综合 的 信息 ， 作 为 科学 决 抹 分 析 的 重要 依据 。 

2) 可 以 从 宏观 和 微观 的 角度 理解 信息 。 

3) 可 以 通过 数据 仓库 系统 建立 企业 各 个 部 门 之 间 的 联系 。 
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7.3 ”商业 智能 一 数据 集 市 理论 概述 


7.3.1 数据 集 市 简介 


1. 数据 集 市 产生 原因 

1) 数据 仓库 虽然 能 够 满足 所 有 最 终 用 户 的 需求 ， 但 是 各 个 部 门 业 务 不 同 ， 需 求 侧 重点 
不 同 ， 且 知 求 也 是 不 断 变 化 的 ， 这 就 要 求 数据 仓库 存储 的 数据 具有 充分 的 灵活 性 ， 以 适应 各 
类 用 户 的 查询 和 分 析 。 

2) 最 终 用 户 对 信息 检索 要 求 是 高 性 能 的 ， 即 越 快 越 好 。 

对 数据 仓库 而 言 ， 灵 活性 和 性 能 是 一 对 矛盾 体 。 提 高 灵活 性 就 要 存储 各 种 历史 数据 ,但 是 
一 个 特定 查询 就 要 关联 很 多 表 ， 性 能 就 不 能 保证 。 为 了 解决 这 一 矛盾 ， 数 据 仓库 中 就 增加 了 数 
据 集 市 。 数 据 集 市 存储 为 特定 用 户 需 求 而 预 完 计算 好 的 数据 ， 从 而 满足 用 户 对 性 能 的 要 求 。 

数据 集 市 产生 的 为 外 一 个 原因 是 数据 仓库 开发 周期 较 长 ， 投 入 较 大 ， 规 模 较 小 的 企业 无 
法 承担 。 数 据 集 市 能 够 快速 解决 某 些 问题 ， 而 且 投 资 规模 也 比 数据 仓库 小 很 多 。 

2. 数据 集 市 的 定义 

比尔 兰 次 说 过 :“ 如 何 收集 、 管 理 和 利用 信息 将 决定 您 的 胜 负 。” 商业 智能 正 是 在 这 
种 需求 下 诞生 的 ， 而 数据 集 市 是 满足 部 分 特殊 用 户 群 体 用 来 收集 、 管 理 他 们 本 部 门 、 本 专业 
言 县 的 数据 仓库 。 

大 多 数 情 次 下 ， 数 据 集 市 的 数据 来 源 于 数据 仓库 ， 它 是 一 种 小 型 的 部 门 级 别 的 数据 仓 
库 。 数 据 集 市 的 重点 就 是 它 满足 了 茶 些 用 户 的 特殊 业务 需求 ， 根 据 所 属 部 门 的 种 求 ， 对 历史 
数据 进行 必要 的 汇总 和 计算 。 那 么 什么 是 数据 集 市 呢 ? 

数据 集 市 就 是 满足 特定 的 部 门 或 者 用 户 的 需求 ， 按 照 多 维 的 方式 进行 存储 ， 包 括 定义 维 
度 、 需 要 计算 的 指标 、 维 度 的 层次 等 ， 生 成 面 癌 决策 分 析 需 求 的 数据 立方 体 。 数 据 仓库 体系 
结构 中 增加 了 数据 集 市 ， 数 据 集 市 又 可 以 看 做 部 门 级 的 小 型 数据 仓库 ， 如 图 7-23 所 示 。 
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图 7-23 数据 集 市 与 各 系统 之 间 的 关系 
3. 数据 集 市 的 优点 和 缺点 
数据 集 市 的 优点 : 
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投资 规模 小 ， 投 资 回收 期 相对 较 短 、 灵 活 ， 风 险 性 较 小 ， 同 时 可 以 按照 多 种 方式 进行 
， 如 部 门 、 应 用 等 。 
数据 集 市 的 缺点 : 
1) 建立 数据 集 市 的 部 门 是 相互 隔离 的 ， 很 多 标准 、 流 程 和 知识 经 验 不 能 共享 ， 这 会 导 
致 大 量 的 资源 浪费 和 重复 穷 动 。 

2) 数据 集 市 在 某 种 程度 上 会 造成 成 本 的 增加 ， 例 如 很 多 部 门 会 选择 不 同 的 工具 、 软 件 
和 硬件， 同时 需要 一 定数 量 的 技术 人 员 。 

3) 不 同 的 部 门 建设 各 自 的 数据 集 市 ， 这 些 集 市 之 间 没 有 数据 的 集成 ， 相 互 独立 ， 因 此 
可 能 会 出 现 数据 不 一 致 的 现象 。 

4. 数据 集 市 分 类 

数据 集 市 的 分 类 包括 : 产品 类 数据 集 市 、 管 理 类 数据 集 市 和 人 研发 类 数据 集 市 。 

(1) 产品 类 数据 集 市 

品类 数据 集 市 的 定位 是 通过 数据 挖 据 、 建 模 和 其 他 方法 ， 帮 助 企业 发 现 重 要 的 趋势 和 
规律 ， 以 提高 运 浓 效率 。 产 品类 数据 集 市 的 对 象 主要 是 企业 内 部 人 员 。 

品类 数据 集 市 主要 包括 : 文本 分 析 、 模 拟 分 析 、 数 据 挖 气 、 预 测 分 析 、 优 化 分 析 和 可 
视 化 分 析 ， 如 图 7-24 所 示 。 
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图 7-24 ”产品 类 数据 集 市 
e 文本 分 析 
对 非 结 构 化 数据 中 的 文本 进行 分 析 ， 以 提高 业务 洞察 力 。 
e 模拟 分 析 
用 先进 的 技术 手段 模拟 流程 、 行 为 和 业务 ， 可 以 帮助 企业 分 析 未 来 业务 的 发 展 方 癌 。 
® 数据 挖 所 
数据 挖掘 是 由 专业 人 士 根据 不 同 的 业务 场景 选择 不 同 的 挖掘 算法 ， 通 过 数据 挫 气 探索 数 

据 痛 后 隐藏 的 规则 ， 从 而 进行 业务 预测 和 归 类 。 
e 预测 分 析 
通过 历史 和 当前 交易 数据 去 分 析 和 预测 未 来 的 业务 能 
e 优化 分 析 
利用 先进 的 数学 技术 ， 和 帮助 企业 提高 运 早 效率 ， 同 时 提供 强大 的 知识 库 。 
e 可 视 化 分 析 
通过 图 表 、 地 图 、 日 程 表 和 图 片 等 ,利用 专业 的 工具 分 析 业 务 的 趋势 等 。 
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(2) 管理 类 集 市 

管理 类 集 市 是 指 为 了 运营 管理 的 需要 而 进行 的 数据 整合 分 析 ， 从 而 更 好 地 提高 企业 的 运 
营 水 平 。 管 理 类 集 市 主要 面 回 企业 的 内 部 人 员 ， 一 般 来 说 ， 对 于 数据 的 实时 性 要 求 不 高 。 

管理 类 集 市 应 用 包括 管理 驾驶 舱 、 固 定 报表 、OLAP 分 析 、 关 键 绩效 指标 (KPI) 和 数 
据 质 量 检查 等 ， 如 网 7-25 所 示 。 
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图 7-25 管理 类 集 市 应 用 


。 省 理光 驶 舱 

管理 释 驶 舱 对 企业 领导 层 所 关注 的 经 营 活 动 的 关键 指标 做 定制 化 展示 ， 并 以 耳 观 的 图 表 
形式 展示 结果。 

® 固定 报表 

以 固化 报表 的 形式 将 手工 报表 目 动 化 。 

e OLAP 分 析 

通过 灵活 的 多 维 分 析 ， 帮 助 企 业 决 策 者 发 现 问题 ， 追 溯 问 题 根源 ， 预 测 发 展 趋势 等。 同 
时 为 制定 问题 解决 方案 ， 改 善 企业 经 萌 状 况 提 供 带 助 。 

© KPI 

KPI (Key Performance Indicator) 即 关键 绩效 指标 。 

® 数据 质量 检查 

按照 业务 需求 定义 数据 质量 检查 规则 ， 按 照 规 则 定期 得 出 数据 质量 分 析 报 告 ， 提 供给 业 
务 部 门 致 促 报 送 机 构 提 供 数 据 质量 。 

(3) 人 研发 类 数据 集 市 

人 研发 类 数据 集 市 主要 是 文 撑 企 业 各 部 门 的 业务 应 用 系统 ， 提 供 业 务 需 要 的 数据 集合 ， 主 
要 用 于 文 持 数据 人 镀 究 分 析 工 作 。 研 发 类 数据 集 市 同样 也 文 持 各 部 门 的 临时 业务 需求 。 研 发 类 
数据 集 市 之 间 是 相互 独立 的 。 

在 架构 中 ， 数 据 集 市 是 基于 数据 仓库 进行 产品 加 工 的 ， 数 据 集 市 的 建设 方式 可 以 分 成 两 
种 模式 : 库 内 数据 集 市 和 库 外 数据 集 市 。 

所 谓 库 内 数据 集 市 是 部 署 在 企业 数据 仓库 之 内 的 ， 在 数据 仓库 汇总 数据 的 基础 上 构建 特 
定 应 用 的 数据 集 市 。 库 内 集 市 可 以 共享 仓库 内 的 汇总 数据 。 

库 外 数据 集 市 是 在 数据 仓库 之 外 单独 部 车， 具有 专门 的 软 人 刹 件 设备 ， 数 据 来 源 可 以 是 数 
据 仓库 的 基础 层 数 据 ， 或 者 是 汇总 层 的 数据 。 
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7.3.2 数据 集 市 和 数据 仓库 的 联系 和 区 别 


(1) 数据 集 市 和 数据 仓库 的 联系 

数据 集 市 是 一 组 特定 的 、 针 对 某 个 主题 域 、 某 个 部 门 或 者 某 些 特殊 用 户 而 进行 分 类 的 数 
据 集 合 ， 也 可 以 说 是 小 型 的 数据 仓库 。 用 户 可 以 在 数据 集 市 中 快速 地 对 数据 进行 访问 和 对 报 
表 进 行 展 示 ， 同 时 在 数据 结构 的 内 部 对 数据 进行 必要 的 汇总 和 优化 。 

数据 集 市 的 存储 通常 按照 划分 主题 的 形式 进行 存放 ， 其 模型 一 般 是 星 形 结构 或 者 雪花 形 

结构 。 而 数据 仓库 除了 按照 主题 的 形式 进行 存放 外 ， 其 模型 一 般 按 照 第 三 范式 的 形式 进行 设 
计 。 数 据 仓库 到 数据 集 市 的 过 程 是 从 数据 规范 化 到 多 维 建 模 的 过 程 ， 包 括 数 据 仓库 内 的 实体 
表 转 化 成 事实 表 、 维 表 ， 以 及 将 实体 之 间 的 关系 转化 成 多 维 关 系 的 映射 。 

在 数据 仓库 项 目 中 ， 数 据 集 市 通常 按照 地 区 、 日 期 等 维度 对 数据 进行 组 织 和 汇总 ， 因 此 
数据 仓库 转化 成 数据 集 市 也 是 按照 轻 量 级 汇总 或 者 中 度 汇 总 和 计算 所 完成 的 。 简 而 言 之 ， 数 
据 集 市 里 的 数据 一 般 都 是 从 数据 仓库 中 经 过 转换 、 汇 总 计算 获取 的 ， 下 接 支 撑 前 并 的 应 用 需 
求 ， 如 图 7-26 所 示 。 

数据 集 市 的 数据 通常 会 作为 OLAP 服务 和 应 用 服务 的 数据 输入 。 数 据 集 市 的 数据 一 般 不 
会 从 源 数 据 系统 中 直接 抽取 ， 即 一 般 不 提倡 建设 独立 型 的 数据 集 市 。 这 是 因为 ， 如 果 数 据 集 
市 从 源 数 据 系 统 中 下 接 抽取 数据 ， 则 可 能 导致 数据 的 不 一 致 性 ， 同 时 也 会 增加 多 个 额外 的 进 
程 ， 这 些 进程 在 源 系 统 中 将 大 大 消耗 系统 的 CPU 资源 ， 从 而 造成 资源 上 的 浪费 。 数 据 集 市 
和 数据 仓库 的 关系 如 图 7-27 所 示 。 
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图 7-26 数据 集 市 的 数据 来 源 图 7-27 数据 仓库 和 数据 集 市 的 关系 


(2) 数据 集 市 和 数据 仓库 的 区 别 

数据 仓库 的 数据 是 经 过 整合 和 清洗 的 ， 它 能 够 提供 统一 的 视图 。 当 数据 仓库 建成 之 后 ， 
报表 、OLAP 应 用 和 数据 分 析 挖 掘 部 可 以 从 数据 仓库 中 获取 数据 。 

对 于 数据 集 市 来 说 ， 它 主要 是 通过 分 析 应 用 的 特点 ， 判 断 应 该 获取 什么 样 的 数据 。 例 
如 ， 市 场 部 的 数据 集 市 可 能 不 需要 人 力 换 源 的 数据 。 一 般 来 恋 ， 数 据 集 市 就 是 企业 级 数据 仓 
库 的 一 个 子 集 ， 主 要 面 加 部 门 级 的 业务 ， 或 者 东 个 特定 的 主题 。 
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在 数据 结构 上 ， 数 据 仓库 是 面 问 主题 的 、 集 成 的 数据 的 集合 。 而 数据 集 市 通 稼 定义 为 星 
形 结构 或 者 雪花 形 结构 。 数 据 集 市 一 般 是 由 一 张 事实 表 和 几 张 维 表 组 成 。 数 据 仓 库 和 数据 集 
市 的 数据 结构 如 图 7-28 所 示 。 











数据 仓库 数据 集 市 





图 7-28 数据 仓库 和 数据 集 市 的 数据 结构 


数据 仓库 和 数据 集 市 的 区 别 见 表 7-1。 
表 7-1 数据 仓库 和 数据 集 市 的 区 别 


比较 对 象 数据 仓库 数据 集 市 


数据 来 源 ODS 数据 仓库 
数据 结构 雪花 形 或 星 形 结构 
历史 数据 一 部 分 历史 数据 


7.3.3 数据 集 市 的 技术 特性 


数据 集 市 是 数据 仓库 体系 中 的 一 种 小 型 的 部 门 或 工作 组 级 别 的 数据 仓库 ， 从 而 满足 用 户 
对 性 能 的 需求 。 数 据 集 市 在 一 定 程 度 上 可 以 缓解 访问 数据 仓库 的 瓶 久 问题 。 根 据 数据 集 市 应 
用 的 不 同 ， 可 以 分 成 库 内 集 市 或 库 外 集 市 。 数 据 集 市 技术 路 线 的 指导 原则 包括 : 

1) 大 规模 并 行 处 理 能 

2) 数据 高 速 加 载 和 印 载 。 

3) 存储 压缩 。 

4) 快速 刷新 。 

5 ) 海量 数据 处 理 能 力 。 数 据 集 市 和 数据 仓库 的 区 别 在 于 数据 的 范围 和 主题 ， 数 据 仓 库 
是 全 局 的 整体 的 数据 ， 数 据 集 市 主要 服务 于 特定 主题 ， 在 某 些 时 候 ， 数 据 集 市 的 数据 量 很 
大 ， 因 此 ， 集 市 需要 具备 处 理 大 并 发 、 复 杂 查 询 的 能 

6) 线性 扩展 能 力 。 数 据 集 市 平台 应 该 具备 线性 扩展 的 能 力 ， 可 以 满足 数据 不 断 增 长 的 
需求 。 

7) 工作 负载 管理 能 力 。 提 供 工 作 负 载 管理 能 

8) 高 可 用 性 。 数 据 集 市 平台 可 以 提供 高 可 用 的 方案 ， 满 足 系统 的 高 可 用 性 要 求 。 

9) 数据 压缩 。 必 须 提 供 良 好 的 数据 压缩 能 力 ， 降 低 存 储 成 本 ， 多 段 备 份 和 恢复 时 间 ， 
满足 系统 的 时 间 要 求 。 
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10) 高 速 数据 加 载 和 番 载 能 力 。 必 须 提 供 高 速 的 数据 加 载 和 番 载 能 力 ， 以 保证 数据 加 
载 和 僵 载 能 够 在 较 短 的 时 间 内 完成 ， 从 而 减轻 运 维 压力 。 

11) 星 形 模 型 /雪人 花形 模型 性 能 优化 。 一 般 来 说 ， 数 据 集 市 中 的 数据 ， 通 第 按照 星 形 和 
雪人 花形 模型 组 织 ， 数 据 集 市 平台 必须 提供 针对 性 的 优化 ， 以 满足 用 户 啊 应 时 间 的 要 求 。 

12) 满足 数据 库 平 台 知 求 的 能 力 。 数 据 集 市 平台 本 号 是 一 个 数据 库 平 台 ， 除 了 满足 数据 
集 市 的 特殊 需求 外 ， 还 必须 满足 数据 库 平 台 全 部 能 





7.4 商业 智能 一 ODS 概述 


7.4.1 ODS 简介 


1. ODS 的 概念 

通过 前 几 草 的 学 习 ， 我 们 已 经 知道 数据 仓库 是 一 个 面 癌 主题 的 、 集 成 的 、 相 对 稳定 的 、 
反映 历史 变化 的 数据 集合 ， 用 于 文 持 用 户 的 辅助 决策 分 析 。 

而 ODS (Operational Data Store， 操 作 数 据 存 储 ) 则 是 一 个 面 回 主题 的 、 集 成 的 、 可 变 
的 、 反 映 当 前 细节 的 数据 集合 。 它 主要 用 于 文 持 企业 处 理 业 务 应 用 和 存储 面 回 主题 的 、 即 时 
性 的 集成 数据 ， 为 企业 决策 者 提供 当前 细 市 性 的 数据 ， 通 党 作为 数据 仓库 的 过 渡 阶 段 。 

2. ODS 建设 原因 

ODS 系统 建设 的 原因 有 多 种 ， 主 要 原因 有 : 

1) 系统 重复 开发 ， 造 成 资源 极度 浪费 。 不 同 应 用 之 间 ， 可 能 存在 相同 的 数据 抽取 需 
求 ， 经 过 多 次 抽取 ， 浪 费 网 络 存储 资源 ， 造 成 不 同 应 用 系统 之 间 数 据 的 不 一 致 性 ， 同 时 也 会 
给 业务 系统 市 来 沉重 的 压力 。 

2) 一 般 来 说 ， 业 务 部 门 需要 的 信息 可 能 来 自 于 多 个 系统 ,但 是 由 于 各 个 系统 之 间 的 数 
据 可 能 会 出 现 口径 不 一 致 ， 数 据 不 规范 的 现象 ， 因 此 大 大 增加 了 临时 抽取 数据 的 难度 ， 同 时 
很 难保 证 数据 的 一 致 性 和 准确 性 。 

综 上 所 述 ， 通 过 ODS 系统 的 建设 ， 既 可 以 大 大 缩短 应 用 系统 的 实施 路 径 ， 减 少 重复 性 
的 设计 和 开发 ， 又 可 以 提高 数据 的 响应 速度 和 准确 性 ， 为 以 后 的 数据 挖掘 和 分 析 打 下 基础 。 

3. ODS 的 特点 

业务 数据 经 过 ETL 数据 抽取 、 转 换 、 加 载 ， 进 入 到 ODS 系统 中 ， 为 企业 提供 了 一 种 全 
局 的 、 集 成 的 和 反映 当前 实时 性 的 视角 ， 在 支持 企业 决策 分 析 需 求 的 同时 ， 还 能 够 在 业务 系 
统 和 数据 仓库 之 间 构 建 一 个 数据 缓冲 带 ， 使 得 数据 之 间 的 传输 和 转换 变 得 相对 容易 。 

ODS 系统 的 主要 功能 就 是 将 多 个 业务 系统 中 不 同 的 数据 源 进 行 数据 集成 ， 通 过 数据 抽 
取 、 转 换 、 加 载 ， 将 数据 放 入 到 共享 的 存储 区 中 ， 以 保证 数据 的 一 致 性 。 

ODS 具有 以 下 特点 : 

1 ) 数据 是 不 断 更 新 和 易 丢 失 的 ， 当 新 的 业务 数据 进入 到 ODS 时 ， 旧 的 数据 会 被 新 数据 
履 莓 或 者 更 新 ,一般 不 存储 历史 数据 ， 只 反映 当前 实时 性 的 信息 。 

2) ODS 系统 一 般 存 储 的 都 是 细节 性 的 信息 ， 很 少 有 汇总 的 数据 ， 即 ODS 包含 粒度 级 别 
最 低 的 数据 。 

3) ODS 系统 文 持 快 速 的 数据 更 新 操作 ， 数 据 刷新 频率 很 快 ， 一 般 不 保存 过 期 的 历史 数据 。 
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4) ODS 系统 一 般 存 储 在 关系 数据 库 中 ， 通 过 将 各 个 业务 系统 的 数据 集成 起 来 ， 组 成 企 
业 的 全 局 统一 性 视图 ， 实 现 ODS 的 数据 共享 功能 。 

5) 用 户 可 以 频繁 访问 ODS 系统 ， 因 为 它 是 基于 操作 型 应 用 的 。 

4. ODS 设计 原则 

ODS 的 设计 原则 包括 可 扩展 性 、 高 可 用 性 、 可 重用 性 和 高 性 能 ， 如 图 7-29 所 示 。 








ODS 的 设计 原则 Dy, 





图 7-29 ”ODS 的 设计 原则 

(1) 可 扩展 性 

可 扩展 性 是 指 ODS 系统 可 以 文 持 业务 系统 扩展 的 需要 。 人 举例 来 说 ， 设 计 0DS 数据 模型 
的 时 候 ， 应 该 充分 考虑 新 旧 系 统 的 业务 数据 模型 能 够 扩展 到 ODS 系统 中 。 

(2) 高 可 用 性 

高 可 用 性 是 指 系 统 发 生变 化 的 时 候 ， 可 以 依赖 染 构 的 灵活 性 ， 仍 能 你 证 系统 的 正常 运 
行 。 例 如 ， 对 于 模型 的 设计 ， 应 该 考虑 业务 源 系 统 结构 发 生变 化 时 对 ODS 系统 囊 来 的 影响 。 
也 就 是 说 ， 局 部 模型 的 扩展 不 会 影响 到 ODS 数据 模型 。 

(3) 可 重用 性 

可 重用 性 是 指 尽 量 避 人 免 重复 的 系统 建设 ， 尽 可 能 考虑 物理 设备 、 系 统 软件 、 模 型 以 及 应 
用 上 的 复 用 。 举 例 来 说 ， 对 于 ETL 处 理 流 程 ， 分 析 ETL 任务 的 各 个 环节 ， 找 出 公共 的 组 件 ， 
进行 封闭， 然后 进行 复 用 。 

(4) 高 性 能 

高 性 能 是 指 ODS 系统 可 以 承受 峰值 时 的 系统 压力 和 更 多 的 应 用 ， 保 证 系统 可 以 正 篆 
J 

5. ODS 的 主要 功能 

ODS 的 主要 功能 如 图 7-30 所 示 。 

(1) 作为 业务 系统 和 数据 仓库 之 间 的 隅 离 地 市 

一 般 来 说 ， 数 据 仓 库 系 统 的 数据 来 源 非常 复 沫 ， 数 据 可 能 存储 在 不 同 的 应 用 系统 和 业务 
数据 库 中 ， 为 了 满足 数据 仓库 对 业务 数据 的 抽取 标准 ， 需 要 在 应 用 系统 和 数据 仓库 系统 之 间 
建立 一 个 “隔离 墙 ” ， 如 图 7-31 所 示 。0DSs 系统 作为 “隔离 墙 ” 的 目的 是 临时 存储 多 个 业 
务 源 数据 ， 经 过 一 系列 的 清洗 、 转 换 并 达到 数据 仓库 对 数据 的 要 求 后 ， 再 将 数据 加 载 到 数据 
仓库 中 。 

在 业务 系统 中 有 直接 将 数据 抽取 到 数据 仓库 中 并 不 容易 ，0DS 系统 作为 业务 系统 和 数据 
仓库 系统 之 间 的 隔离 地 市 ， 用 于 存放 从 业务 系统 抽取 出 来 的 数据 ， 为 数据 仓库 提供 了 平整 、 
可 靠 的 数据 源 。 
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图 7-30 ”ODS 的 主要 功能 图 7-31 ODS 的 “隔离 墙 ” 功 能 


(2) 降低 业务 系统 的 压力 

在 数据 仓库 建立 之 前 ， 大 量 的 决策 分 析 报 表 是 由 业务 系统 直接 生成 的 ， 在 报表 生成 过 程 
中 可 能 存在 复杂 的 计算 ， 对 业务 系统 的 运行 产生 非常 大 的 压力 。 在 建立 ODS 系统 之 后 ， 原 
来 由 业务 系统 直接 产生 的 复杂 报表 、 对 细节 数据 的 查询 都 能 够 在 ODS 系统 中 进行 ， 从 而 有 
效 降低 了 业务 系统 的 查询 压力 ， 提 高 了 业务 系统 的 运行 效率 。 

(3) 满足 从 微观 角度 查询 细节 数据 的 要 求 

一 般 来 说 ， 在 数据 仓库 体系 结构 中 ， 数 据 仓 库 层 存储 的 数据 都 是 经 过 轻 度 汇 总 的 数 
据 和 历史 数据 ， 几 乎 不 存储 任何 生产 运营 过 程 中 产生 的 细节 数据 。 但 是 ， 为 了 满足 特殊 
用 户 群 体 的 要 求 ， 可 能 需要 对 一 些 交 易 数 据 进行 查询 ， 这 时 需要 把 查询 这 些 交 易 数 据 的 
功能 让 ODS 系统 来 实现 。 通 党 ，0DS 系统 文 持 多 维 分 析 的 功能 ， 因 为 它 也 是 面 回 主题 的 
和 集成 的 。 数 据 仓 库 从 宏观 上 文 持 多 维 决 策 分 析 ， 而 ODS 系统 从 微观 角度 摘 述 细 市 性 的 
数据 查询 。 

(4) 实时 性 的 数据 整合 功能 

ODS 系统 具有 实时 性 的 数据 整合 功能 。 它 通过 ETL 技术 ， 实 时 地 从 各 个 业务 系统 中 抽 
取 企 业 的 运 俏 交易 数据 ， 通 过 数据 转换 、 清 洗 、 加 载 等 操作 最 终 形 成 共 吾 数据 ， 为 企业 提供 
统一 的 数据 视图 。 这 种 数据 整合 功能 有 助 于 提高 数据 的 一 致 性 ， 为 数据 仓库 提供 优质 的 数 
据 源 。 

(5) 检查 数据 质量 的 功能 

ODS 系统 具有 完善 的 数据 质量 检查 功能 。 它 通过 对 企业 数据 的 质量 检查 和 质量 评 佑 ， 
完善 企业 内 部 的 组 织 机 构 ， 支 持 对 数据 质量 管理 流程 的 监控 ， 从 而 实现 对 源 数据 质量 问题 的 
发 现 和 修正 。 

(6) 为 企业 提供 统一 的 数据 视图 和 数据 共享 功能 

ODS 系统 为 企业 提供 统一 的 数据 视图 和 数据 共享 功能 。 它 通过 对 各 个 业务 系统 运 维 数 
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据 的 集成 ， 实 现 ODS 的 数据 共 圣 ， 同 时 为 企业 提供 全 局 的 一 一 
疯 一 数据 视图 
6. ODS 的 设计 步 又 I 
ODS 的 设计 步骤 如 图 7-32 所 示 。 
sz 


(1) 数据 调研 
~ 








数据 调研 主要 是 根据 业务 人 员 提 供 的 需求 意向 ， 将 业 
务 系统 划分 成 几 个 模块 ， 并 对 各 个 模块 所 涉及 的 数据 和 数 





据 源 进行 调研 分 析 。 数 据 调 研 分 析 可 以 分 成 编号 、 模 块 名 ODS 系统 的 物理 实现 
称 、 数 据 来 源 (包括 导入 和 输入 )、 备 注 等 信息 ， 见 


表 7-2。 图 7-32 0DS 系统 的 设计 步骤 


表 7-2 数据 调研 分 析 表 


站 数据 来 源 备注 


* 米 米 米 米 米 
1 生产 数据 
* 米 米 米 米 米 


米 米 米 米 米 米 
2 基本 数据 





洲 米 米 米 米 米 





(2) 确定 数据 范围 

确定 数据 范围 是 在 需求 调研 的 基础 上 进行 的 。 为 了 保证 所 需 的 数据 都 能 够 从 业务 系统 中 
得 到 ， 需 要 将 应 用 需求 与 ODS 的 数据 范围 结合 起 来 ， 也 就 是 对 ODS 进行 主题 的 划分 。 通 常 
来 说 ，ODS 主题 的 划分 是 以 企业 的 业务 模型 为 基础 ， 通 过 参考 各 种 业务 系统 信息 模型 ， 得 
到 ODS 数据 主题 的 范围 ， 根 据 该 范围 进行 ODS 主题 的 定义 ， 从 而 确定 ODS 的 数据 范围 。 

(3) 设计 主题 元 素 

ODS 系统 的 主题 元 素 主 要 包括 主题 名 称 、 维 度 、 度 量 值 、 粒 度 、 存 储 的 时 间 ， 下 面 分 
别 进行 介绍 。 

e 主题 名 称 : 说 明 该 主题 主要 包含 哪些 分 析 数 据 ， 用 户 重点 关注 的 对 象 是 什么 。 

e 维度 : 说 明 数 据 分 析 时 的 角度 有 哪些 ， 如 时 间 维 度 的 年 、 季 、 月 、 日 等 。 

e 度量 值 : 说 明 用 户 关注 的 指标 值 ， 如 工资 额 、 销 售 量 等 。 

e 粒度 : 是 指 对 数据 的 细 化 程度 。 一 般 来 说 ， 细 化 程度 越 高 ， 粒 度 级 别 就 越 低 ; 细 化 程 

度 越 低 ， 粒 度 级 别 就 越 高 。 

e 存储 的 时 间 : 主要 描述 数据 的 存储 周期 和 存储 期 限 是 多 少 。 

(4) ODS 系统 的 物理 实现 

ODS 系统 的 物理 实现 主要 包括 数据 库 的 物理 实现 、 数 据 抽取 的 设计 等 内 容 。 


7.4.2 ODS 系统 与 数据 库 系统 、 数 据 仓库 系统 的 区 别 


ODS 系统 是 既 不 同 于 一 般 的 数据 库 系统 ， 又 不 同 于 数据 仓库 系统 的 一 种 特殊 的 数据 存 
储 系统 。 它 与 一 般 数 据 库 有 很 多 区 别 ， 它 的 数据 组 织 方 式 是 面 问 主题 的 、 集 成 的 ， 而 数据 库 
系统 则 是 面 回应 用 和 事务 处 理 的 。 
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ODS 系统 与 数据 仓库 系统 相 比 ， 它 只 存储 当前 的 、 细 厄 性 的 信息 或 者 接近 当前 的 实时 
性 数据 ， 可 以 对 数据 进行 增加 、 删 除 和 修改 等 操作 ， 而 数据 仓库 系统 虽然 是 面 癌 主题 和 集成 
的 ， 但 是 数据 一 般 不 进行 修改 ， 并 且 存 储 大 量 的 历史 数据 。ODS 系统 和 数据 仓库 系统 的 主 
要 区 别 体现 在 数据 的 时 间 性 、 稳 定性 、 可 修改 性 、 细 节 性 和 用 户 访问 频率 上 。 

ODS 系统 与 数据 库 系统 、 数 据 仓库 系统 的 区 别 如 图 7-33 所 示 。 














数据 库 系统 数据 仓库 系统 


。 面 门 应 用 、 事 务 处 理 。 面向 主题 、 集 成 的 。 面 向 主题 、 集 成 的 
。 实 时 性 高 。 实时 性 要 求 高 。 实 时 性 要 求 不 高 
。 数 据 检索 量 小 。 数据 检索 量 小 。 数据 检索 量 大 


。 只 存储 当前 数据 。 一 般 只 保留 当前 数据 。 存储 大 量 历 史 数 据 和 
。 访问 频率 高 。 访问 频率 高 轻 度 汇总 的 数据 
。 响应 时 间 控 制 到 1s 。 了 响应 时 间 控 制 到 1s 。 访 问 频率 中 、 低 

以 下 以 下 。 响应 时 间 需 几 秒 或 者 
。 用户 数 量 大 。 用 户 数量 相对 较 小 更 长 





。 用 户 数量 相对 较 小 
图 7-33 ODS 系统 与 数据 库 系 统 、 数 据 仓库 系统 的 区 别 


已 结 : 

(1) ODS 系统 与 数据 仓库 系统 的 区 别 

1 ) ODS 系统 是 业务 数据 进入 到 数据 仓库 系统 中 的 一 段 临 时 存储 区 域 ， 存 储 当 前 或 者 接 
近 当 前 的 实时 性 数据 ， 而 数据 仓库 一 般 只 存储 历史 数据 。 

2) ODS 系统 对 数据 的 更 新 十 频 蛇 的 ， 而 数据 仓库 中 的 数据 是 不 能 更 新 的 ， 数 据 的 任何 
变化 都 应 该 反映 到 数据 仓库 中 。 

3) ODS 系统 主要 存储 细 市 性 的 数据 ， 而 数据 仓库 系统 既 包 含 细节 性 的 历史 数据 ， 同 时 
也 包含 轻 度 汇总 的 数据 。 

(2) ODS 系统 与 数据 库 系统 的 区 别 

1) 数据 库 系 统 主要 是 面 回 事物 处 理 和 应 用 的 ， 而 ODS 系统 主要 是 面 四 主题 的 和 集成 的 。 

2) 数据 库 系统 的 用 户 量 相对 较 大 ， 而 ODS 系统 面 对 的 用 户 数量 相 对 较 小 。 


7.4.3 基于 ODS 的 即时 OLAP 应 用 


基于 ODS 系统 的 即时 OLAP 应 用 是 建立 决策 分 析 的 一 种 解决 方案 ， 通 常 应 用 于 中 、 低 
级 别 的 决策 分 析 应 用 。 基 于 数据 仓库 的 OLAP 应 用 是 
为 了 进行 长 期 的 趋势 分 析 ， 但 是 一 般 运行 较 慢 。 如 基于 数据 仓库 的 
果 企 业 决策 者 需要 查看 周期 时 间 较 短 的 一 些 指标 情 





























| a se 。 是 决策 分 析 系 。 是 决策 分 析 系 
况 ， 不 需要 太 多 的 历史 数据 ， 这 样 就 需要 建立 基于 统 的 一 种 解决 统 的 一 种 解决 
ODS 的 即时 OLAP 应 用 。 基 于 0DSs 的 OLAP 和 基 方案 方案 

册 多 应 用 ] 加 和 基于 。 满 足 日 常 频繁 。 满 足 长 期 趋势 
数据 仓库 的 OLAP 之 间 的 关系 如 网 7-34 所 示 。 的 趋势 分 析 的 分 析 








例如 ， 查 看 一 周 之 内 的 各 地 区 销售 情况 ， 只 需 | "于 行 时 间 较 短 * 运行 时间 较 攻 
要 参考 当前 时 间 内 一 周 的 历史 数据 ， 如 果 在 数据 仓 
库 中 建立 即时 OLAP 应 用 ， 运 行 效率 非常 低 ， 并 且 很 
难 准 确 地 反映 当前 时 间 的 各 地 区 销售 情况 。 


图 7-34 基于 ODS 的 OLAP 和 基于 数据 
仓库 的 OLAP 之 间 的 关系 
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7.4.4 ODS 系统 的 功能 


一 般 来 说 ， 在 数据 仓库 系统 中 ， 存 储 的 数据 都 是 轻 度 汇总 的 指标 数据 或 者 历史 数据 ， 很 
少 有 细 布 性 的 、 当 前 的 生产 运 芝 数据， 但 是 在 特殊 的 应 用 中 ， 用 户 可 能 会 对 这 些 生产 数据 进 
行 查 询 ， 然 而 数据 仓库 不 支持 这 些 特殊 的 查询 ， 这 部 分 功能 可 以 由 ODS 系统 来 实现 。 

ODS 系统 不 仅 可 以 文 持 多 维 分 析 等 查询 功能 ， 还 可 以 满足 对 细 布 性 的 交易 数据 或 者 粒 
度 级 别 很 低 的 数据 进行 查询 的 要 求 。0DS 系统 是 按照 面 回 主题 的 方式 进行 数据 存储 ， 同 时 
它 又 只 存储 当前 时 间 段 内 的 或 者 接近 当前 的 细节 性 数据 。0ODS 系统 的 数据 组 织 方式 是 基于 
主题 的 ， 它 对 所 有 业务 系统 的 数据 进行 集成 ， 组 成 全 局 共享 的 数据 视图 。0DSs 系统 的 男 一 
个 重要 功能 就 是 数据 共 至 的 功能 ， 它 的 数据 存储 量 取 决 于 对 业务 数据 的 抽取 频率 。 

ODS 系统 的 数据 具有 交互 功能 ,不仅 提供 企业 
的 全 局 信息 统一 视图 ， 满 足 对 信息 共 至 的 需求 ， 同 
时 还 可 以 在 固定 的 周期 内 ， 实 现 决 策 分 析 系 统 与 其 0 数据 共享 数据 交互 
他 业务 系统 之 则 的 交互 。 当 0DS 系统 的 数据 有 更 新 
时 ， 外 围 的 业务 系统 数据 也 会 发 生 相 应 的 变化 。 
ODS 系统 的 功能 如 图 7-35 所 示 。 图 7-35 ”ODS 系统 的 功能 


7.4.5 ODS 系统 的 架构 


ODS 系统 是 一 个 面 回 主 题 的 、 集 成 的 、 当 前 的 、 可 更 新 的 数据 集合 ， 用 于 细节 性 的 碍 
询 和 为 决策 分 析 系 统 提 供 当 前 时 间 段 内 的 数据 。0DS 系统 是 介 于 操作 型 数据 库 和 数据 仓库 
之 间 的 一 种 存储 方式 ， 其 中 数据 仓库 存储 的 是 概括 性 的 数据 和 历史 数据 ， 而 ODS 系统 存储 
的 是 细 方 性 数据 和 当前 时 间 段 内 的 数据 。 

数据 仓库 系统 和 ODS 系统 之 间 的 结合 能 够 分 析 企 业 当 前 的 运营 情况 ， 同 时 对 未 来 企业 
的 经 党 状况 进行 合理 的 规划 和 分 析 。ODS 系统 中 的 数据 可 以 进行 增加 、 删 除 、 修 改 等 操作 ， 
但 是 数据 仓库 中 的 数据 一 般 不 能 进行 修改 。 数 据 仓库 系统 与 业务 系统 相隔 离 ， 目 的 是 减 小 数 
据 仓 库 的 处 理 和 决策 支持 分 析 对 业务 系统 造成 的 影响 ,减少 业务 系统 的 压力 。 

ODS 系统 的 架构 如 图 7-36 所 示 。 






































用 户 界面 层 
主题 分 析 层 





图 7-36 ”ODS 系统 的 架构 
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7.5 商业 智能 一 ETL 概述 


7.5.1 ETL 体系 是 商业 智能 核心 的 技术 架构 


在 商业 智能 系统 中 ，ETL (Extract - Transform -Load， 数 据 抽 取 、 转 换 、 加 载 ) 占有 重 
要 的 地 位 ，ETL 作为 一 种 数据 整合 解决 方案 ,已 经 上 升 到 了 一 种 理论 的 高 度 。ETL 在 商业 智 
能 系统 中 具有 以 下 几 个 特点 。 

1) 数据 流动 具有 周期 性 。 一 般 来 说 ， 商 业 智 能 ETL 按照 某 种 业务 抽取 规则 周期 性 运 
行 ， 每 次 运行 都 会 加 载 新 的 数据 到 目标 库 中 。 

2) 因为 数据 仓库 中 的 数据 量 巨 大 ， 所 以 一 般 采 用 成 熟 的 ETL 工具 去 完成 抽取 、 转 换 、 
加 载 ， 以 降低 设计 开发 和 维护 的 复杂 度 ， 使 设计 开发 人 员 有 更 多 的 时 间 去 专注 于 业务 转化 规 
则 。ETL 是 数据 仓库 项 日 中 最 艰难 且 耗 时 最 长 的 工作 之 一 。ETL 系统 的 设计 和 开发 工作 对 商 
业 智 能 项 目的 成 败 产 生 至 关 重 要 的 影响 。 如 果 把 数据 仓库 项 目 看 成 一 座 大 厦 的 话 ， 那 么 数据 
模型 就 像 图 样 ， 而 ETL 就 是 建造 这 座 大 厦 的 过 程 。 而 作为 从 事 商 业 智能 的 专业 人 士 ， 需 要 
真正 理解 ETL 理论 方面 的 知识 ， 而 不 仅仅 停留 在 ETL 工具 的 使 用 上 ， 因 为 只 有 这 样 ， 才 能 
更 好 地 发 挥 它 的 作用 。 

例如 ， 如 图 7-37 所 示 ， 建 筑 图 样 的 规划 就 是 数据 仓库 模型 的 设计 过 程 ， 根 据 图 样 建造 
房屋 的 过 程 就 是 ETL 设计 开发 的 过 程 ， 而 那 座 美丽 的 房屋 就 是 数据 仓库 的 成 果 。 可 以 看 出 ， 
建造 房屋 的 过 程 就 是 耗 时 较 长 和 相对 困难 的 工作 ， 即 ETL 是 整个 数据 仓库 项 目 中 难度 最 大 、 
耗费 时 间 最 长 的 工作 之 一 。 
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图 7-37 数据 仓库 模型 的 设计 过 程 


7. 5.2 ETL 的 一 般 过 程 


ETL 是 数据 抽取 (Extract) 、 转 换 (Transform) 、 加 载 (Load ) 的 英文 向 写 。 它 的 一 般 
过 程 是 指 : 首先 访问 源 数据 ， 连 接 数据 源 和 目标 仓库 之 间 的 数据 流 ， 然 后 经 过 数据 的 转换 、 
传输 和 加 载 ， 最 后 加 载 到 目标 表 中 。 整 体 流程 中 有 相应 的 出 错 处 理 ， 如 图 7-38 所 示 。 


199 








一 
转换 、 传 输 和 加 载 








连接 数据 源 和 目 
” 标 数据 仓库 之 间 
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图 7-38 ETL 的 一 般 过 程 





司 访问 数据 源 


7.S$.3 研究 ETL 的 本 质 


为 了 更 好 地 理解 ETL 的 流程 ， 有 必要 研究 一 下 ETL 的 本 质 。 

1) 用 户 应 该 理解 ETL 本 质 上 就 是 数据 从 源 到 目标 的 过 程 ( 即 数据 流动 的 过 程 )。 

在 数据 仓库 中 历史 数据 是 海量 的 ，ETL 过 程 需要 经 历 以 下 几 个 步骤 : 抽取 、 清 洗 、 转 
换 、 加 载 。 抽 取 和 加 载 是 转换 过 程 的 输入 和 输出 部 分 ， 而 数据 转换 是 ETL 过 程 的 核心 部 分 ， 
也 是 难度 最 大 的 部 分 。 可 以 把 ETL 分 成 静态 单元 和 动态 单元 两 个 部 分 。 所 谓 静 态 单 元 ， 就 
是 业务 数据 转换 的 规则 ， 而 动态 单元 是 ETL 时 间 调 度 的 最 小 单位 。 目 前 有 很 多 成 熟 的 工具 
都 提供 ETL 功能 ， 包 括 Informatica、DataStage 、Kettle 等 。 这 些 工 具 不 但 具有 可 视 化 的 数据 
流动 、 转 换 编 辑 界 面 ， 还 提供 各 种 转换 规则 定义 和 数据 转化 的 函数 集 。 

2) 多 数 ETL 工具 价格 易 贯 ， 虽 然 在 宏观 上 一 般 都 适合 处 理 海 量 的 数据 ， 但 是 在 微观 上 
需要 考虑 ETL 处 理 的 不 同情 况 。 

在 数据 量 和 复杂 度 都 不 高 的 情况 下 ， 可 以 利用 ETL 工具 提供 的 组 件 指 定数 据 源 和 目标 
库 ， 通 过 对 图 形 的 拖 忠 就 可 以 设 定 需要 转换 的 规划， 操作 非常 方便 。 在 处 理 大 数据 量 和 复杂 
数据 转换 时 ， 一 般 采 用 编码 的 方式 进行 设计 和 开发 ， 更 直观 地 实现 业务 转换 的 规则 。ETL 工 
具 (如 Informatica、DataStage 、Kettle) 都 是 用 图 形 界 面 去 设置 转换 规则 和 编写 代码 程 序 ， 
这 需要 ETL 设计 开发 人 员 熟 悉 工 具 中 的 各 种 组 件 和 规则 转换 函数 。 当 然 ， 因 为 这 些 ETL 工 
具 不 可 能 提供 所 有 的 转换 规则 ， 所 以 一 般 ETL 工具 都 提供 特定 语言 环境 (JavaScript 语言 脚 
本 和 存储 过 程 的 调用 功能 ) 来 实现 高 级 转换 功能 。 

3 ) 元 数据 是 ETL 过 程 的 重要 体现 ,描述 了 数据 源 的 属性 、 数 据 源 到 目标 库 的 转换 规 
则 、 数 据 抽 取 的 历史 记录 等 内 容 。 

ETL 的 所 有 过 程 一 般 都 是 依赖 元 数据 去 实现 数据 的 清洗 、 转 换 ， 最 后 加 载 到 目标 数据 仓 
库 中 ， 同 时 元 数据 也 是 数据 仓库 项 目 中 不 可 或 缺 的 部 分 。 采 用 元 数据 方法 ， 可 以 实现 数据 折 
取 流 程 的 上 自动化， 并 且 保 证 了 数据 抽取 的 及 时 、 准 确 和 完整 。 元 数据 的 概念 在 数据 仓库 中 非 
常 午 要 ,ETL 中 存在 大 量 的 数据 源 定义 和 映射 规则 、 转 换 规 则 ， 这 些 都 是 元 数据 需要 管理 和 
存储 的 。 

4) 如 有 果 构 建 一 个 商业 智能 系统 ， 设 计 开 发 人 员 要 完全 理解 业务 数据 源 系统 是 非常 困难 
的 ， 需 要 花费 大 量 的 时 间 去 整理 数据 源 的 属性 ， 更 多 的 人 喜欢 在 ETL 开始 之 前 就 将 所 有 的 
业务 转换 规则 弄 清楚 。 
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在 ETL 过 程 中 ， 如 条 遇 到 质量 有 问题 的 源 数据 ， 一 定 要 正面 对 待 这 些 垃圾 数据 或 者 错 
误 数 据 ， 是 丢弃 还 是 处 理 ， 这 些 问 题 都 是 无 法 回避 的 。 如 果 这 些 数 据 不 经 过 人 处理， 那么 在 
ETL 过 程 中 错误 会 逐渐 放大 。 抛 开 数 据 源 质量 问题 ， 我 们 再 来 看 看 ETL 过 程 中 哪些 因素 会 
对 数据 的 准确 性 产生 重大 影响 。 

影响 ETL 数据 质量 的 关键 因素 : 

e 可 能 会 有 一 部 分 数据 因为 客观 或 者 人 为 的 原因 导致 数据 格式 混乱 。 

e 源 系 统 设计 存在 不 合理 性 。 

e 在 开发 过 程 中 ， 因 为 开发 人 员 的 错误 或 者 设计 人 员 对 业务 规则 描述 的 问题 ， 同 样 会 导 

致 数据 质量 出 现 问 题 。 

因为 各 种 因素 都 有 可 能 影响 ETL 数据 的 质量 ， 所 以 保证 数据 质量 的 通常 做 法 如 下 所 示 。 

首先 ， 用 户 必 须 遵守 在 数据 仓库 项 目 中 数据 源 的 质量 要 求 ， 对 业务 源 数 据 进行 仔细 分 
析 ， 以 便 对 数据 源 的 任何 错误 或 不 规范 的 地 方 有 相应 的 处理 方法 ， 如 对 错误 数据 舍弃 或 者 
修改 。 

然后 ， 在 保证 数据 源 的 质量 之 后 ， 在 设计 ETL 的 过 程 中 ， 对 每 一 个 步骤 都 应 该 有 一 个 
衡量 数据 质量 的 方法 ， 需 要 重视 ETL 的 每 一 个 过 程 。 对 于 有 误差 的 数据 ， 需 要 追溯 到 根本 
原因 ， 并 且 将 数据 仓库 的 模型 与 数据 质量 的 验证 方法 统一 起 来 ， 实 现 每 一 步 的 ETL 过 程 都 
有 验证 数据 质量 的 脚本 。 

最 后 ， 就 是 规范 业务 流程 ， 保 证 ETL 的 正确 性 ， 避 免 误 删 数据 或 者 重复 加 载 业 务 数据 。 

其 中 对 质量 的 衡量 有 下 面 几 种 方式 ， 如 图 7-39 所 示 。 


区 定义 的 数据 是 否 和 实际 数值 相同 
否 符合 业务 的 规则 


加 旨 标 数据 是 
数据 是 否 和 业务 源 系统 中 的 信息 保持 一 致 | 
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必 数据 是 否 违背 自然 规律 或 者 不 符合 常理 0 


图 7-39 ”对 质量 的 衡量 方式 


(定义 的 数据 是 否 和 实际 数值 相同 。 

例如 ， 一 个 数据 项 “客户 来 电 等 候 靳 ”是 指 在 客户 服务 中 ， 客 人 来 电 等 候 的 时 间 超 过 
1 min 的 次 数 与 客人 来 电 的 总 次 数 之 比 。 随 着 客户 服务 质量 的 提高 ， 客 人 来 电 等 候 率 会 发 生 
变化 ， 当 客人 来 电 等 候 的 时 间 超 过 1 min 的 次 数 减 少时 ， 客 户 来 电 等 修 认 也 会 相应 降低 ,但 
是 如 果 这 个 值 没 有 被 更 新 ， 那 么 该 数值 可 能 是 不 正确 的 。 

@) 指标 数据 是 否 符合 业务 的 规则 。 

例如 ,“ 社 会 保险 类 别 ” 是 描述 社会 保险 分 类 的 信息 ， 不 包括 劳动 保障 类 别 里 的 内 容 。 
这 个 指标 如 果 出 现 劳 动 保 障 类 别 里 的 信息 ， 避 ® 表 明 该 指标 违背 了 业务 规则 。 

(3) 数据 是 否 和 业务 源 系 统 中 的 信息 保持 一 致 。 

该 数据 和 源 系 统 中 公认 的 、 权 威 性 的 信息 必须 保持 一 致 ， 否 则 该 数值 可 能 是 不 正确 的 。 
例如 ， 发 票 中 的 公司 名 称 必须 和 公司 注册 的 名 称 保持 一 致 ， 公 司 涉及 的 所 有 了 票据 名 称 必 须 和 
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公司 合同 里 的 名 称 保持 一 致 ， 否 则 该 数值 可 能 不 正确 。 

(9 数据 是 否 违背 自然 规律 或 者 不 符合 第 理 。 

如 条 数据 与 业务 源 系统 中 公认 的 、 权 威 性 的 信息 保持 一 致 ， 但 是 却 违 育 了 目 然 规律 或 者 
不 符合 第 理 ， 同 样 应 该 分 析 该 数据 是 否 正确 。 


7. 5.4 主流 的 ETL 工具 


选择 合适 的 ETL 工具 是 实际 数据 仓库 项 目 中 必须 要 考虑 的 问题 ， 选 择 的 因素 包括 使 用 
成 本 、 技 术 人 员 对 此 工具 的 熟练 程度 、ETL 工具 开发 商业 智能 项 目的 成 功 案 例 和 工具 厂商 强 
有 力 的 技术 文 持 。 在 实际 项 目 中 ， 沼 用 的 工具 是 
PowerCenter 和 DataStage， 一 些 公 司 也 会 用 开源 


、 8 人 

的 ETL 工具 ， 如 Kettle。 数据 源 | 数据 续 | ge” | 数据 的 | 元 数据 
从 本 质 上 来 说 ，ETL 工具 的 功能 都 是 相同 | 的 支 竺 | 摘 功 能 | 调度 | 集成 “| 的 管理 

的 ， 都 提供 了 一 个 全 面 的 数据 集成 解决 方案 。 


ETL 工具 的 功能 如 图 7-40 所 示 。 

ETL 工具 可 以 使 用 通用 的 接口 (JDBC、 

ODBC) 或 者 自己 厂商 的 专用 接口 去 抽取 源 数 据 ， 实 现 了 ETL 对 不 同 数据 源 的 支持 。 

数据 转换 是 ETL 工具 提供 的 最 强大 的 功能 之 一 ， 也 是 ETL 开发 人 员 面 临 的 难度 最 大 的 
问题 之 一 。 一 般 来 说 ，ETL 工具 提供 了 各 种 组 件 来 实现 不 同 的 转换 功能 ， 有 行列 转换 、 过 
滤 、 排 序 、 汇 总 、 分 组 、 计 算 等 常用 的 转换 方式 ; 同时 可 以 实现 代理 主键 的 生成 ，Mapping 
的 调试 功能 ， 抽 取 远 程 源 数据 ， 各 种 数据 增 量 加 载 方式 ; 在 转换 过 程 中 还 可 以 文 持 数据 比 
较 、 类 型 转换 、 字 段 拆 分 等 功能 ， 数 据 预 览 ， 数 据 的 批量 闻 载 ， 性 能 监控 ， 目 动 调度 ETL 
程序 ， 程 序 出 错 处 理 ， 按 行 、 按 列 的 聚合 汇总 等 功能 。 

随 着 ETL 工具 的 发 展 ，ETL 的 管理 和 调度 功能 得 到 了 加 强 。 管 理 功能 包括 ETL 程序 的 
备份 与 恢复 ， 版 本 升级 和 管理 。 调 度 功能 包括 命令 触发 方式 、 事 件 触 发 方式 和 时 间 触 发 方 
式 。 目 前 很 多 公司 都 在 拓展 ETL 的 集成 性 ; 在 原 有 的 基础 上 般 入 了 公共 的 API， 增 加 了 
JavaScript 语言 脚本 和 存储 过 程 的 调用 功能 ， 增 强 了 ETL 工具 的 灵活 性 。 


7.5.5 ETL 的 作用 


商业 智能 数据 仓库 系统 由 数据 仓库 、 数 据 集 市 、 多 维 数据 分 析 组 成 。ETL 的 作用 就 是 解 
决 数 据 集成 化 的 问题 。ETL 过 程 中 包含 字段 映射 的 自动 匹配 ， 字 段 的 拆 分 和 混合 运算 ， 去 重 
复 记 录 和 记录 间 合 并 或 计算 ， 数 据 的 批量 加 载 ， 自 定义 函数 ， 记 录 的 行 、 列 转换 ， 复 杂 条 件 
的 过 滤 ， 数 据 预览 和 性 能 监控 等 内 容 ， 如 图 7-41 所 示 。 

商业 智能 系统 的 目的 就 是 通过 数据 分 析 为 企业 管理 者 和 决策 者 提供 辅助 决策 支持 。 因 为 
数据 来 源 不 统一 ， 格 式 混乱 、 各 种 类 型 的 “ 脏 ” 数 据 都 增加 了 对 数据 集成 整合 的 难度 ， 所 
以 需要 ETL 提供 一 个 完整 的 方案 来 解决 数据 一 致 性 和 集成 性 的 问题 。 

ETL 的 设计 和 实施 是 商业 智能 项 目 中 工作 量 最 大 的 部 分 之 一 ， 也 是 最 重要 的 工作 内 容 之 
一 ， 可 以 说 ETL 是 商业 智能 的 核心 和 灵魂， 如 网 7-42 所 示 。 














ETL 工具 的 功能 








图 7-40 ETL 工具 的 功能 
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字段 映射 的 自动 匹配 


字段 的 拆 分 和 混合 运算 










去 重复 记录 和 记录 间 合 并 或 计算 Es 


情 到 数据 的 批量 装载 ， 自 定义 函数 > 
记录 的 行 、 列 转换 SE 


ETL 是 商业 智能 的 核心 和 灵魂 


基业 智能 


/ 
一 数据 预览 和 性 能 监控 2 


图 7-41 ETL 工具 可 以 实现 的 转换 要 求 图 7-42 ETL 是 商业 智能 的 核心 和 灵魂 





/= 
人 ~ 人 I 

















7.5.6 详解 ETL 过 程 


我 们 已 经 知道 ETL 是 将 业务 系统 的 数据 经 过 抽取 、 清 洗 、 转 换 之 后 加 载 到 数据 仓库 的 
过 程 ， 通 稼 情况 下 ， 商 业 智 能 项 目的 ETL 部 分 会 占 整 个 项 目的 1/3 以 上 ，ETL 的 设计 会 直 








接 决定 商业 智能 项 目的 成 败 。 下 面 详细 介绍 ETL 中 的 抽取 、 清 洗 、 转 换 、 加 载 等 各 个 部 分 
的 内 容 。 
1. 数据 抽取 


数据 抽取 就 是 从 源 系 统 中 获取 业务 数据 的 过 程 。 数 据 的 抽取 第 要 充分 满足 商业 智能 系统 
的 决策 分 析 需 要， 为 了 你 证 不 影响 系统 的 性 能 ， 数 据 抽取 时 知 要 考虑 很 多 因素 ,包括 抽取 方 
式 、 抽 取 时 间 和 抽取 周期 等 内 容 。 

例如 ， 抽 取 方 式 包括 增 量 抽取 、 全 量 抽取 。 抽 取 时 间 应 该 尽量 在 系统 使 用 的 低 合 时 有 段 ， 
如 夜间 。 抽 取 的 周期 是 根据 业务 的 需求 制定 的 ， 如 按 小 时 抽取 ， 或 者 按 天 、 月 、 季 度 、 年 等 
抽取 。 在 数据 抽取 之 前 ， 需 要 确定 业务 系统 的 数据 情况 ， 了 解数 据 量 的 大 小 ， 以 及 业务 系统 
中 每 张 表 的 数据 结构 、 字 段 仿 义 、 表 之 间 的 关系 等 信息 ， 当 收集 完 这 些 信息 后 ， 才 能 进行 数 
据 抽 取 的 设计 开发 等 工作 。 数 据 抽 取 有 下 面 儿 种 情况 : 

1) 如 果 业 务 操作 型 数据 库 和 数据 仓库 之 间 的 数据 库 管 理 系统 完全 相同 ， 那 么 只 需要 建 
立 相 应 的 连接 关系 就 可 以 使 用 ETL 工具 直接 访问 ， 或 者 调用 相应 的 SQL 语句 或 者 存储 过 程 。 

2) 如 打数 据 仓 库 系 统 和 业务 操作 型 数据 库 的 数据 库 管 理 系统 不 相同 ， 那 么 比较 简单 的 
方式 是 使 用 ETL 工具 导出 成 文本 文件 或 者 Excel 文件 ， 然 后 再 进行 统一 的 数据 抽取 。 

3) 如 果 需 要 抽取 的 数据 量 非常 庞大 ， 此 时 就 必须 考虑 增 量 抽取 。 通 帝 用 标记 位 或 者 时 
间 戳 的 形式 ， 每 次 抽取 前 首先 判断 是 否 是 抽取 标记 位 或 者 是 当前 最 近 的 时 间 ， 然 后 再 将 数据 
源 的 数据 抽取 出 来 。 

2. 数据 清洗 

在 一 般 情 总 下， 数据 清洗 的 目的 就 是 选择 出 有 缺陷 的 数据 ， 然 后 再 将 它们 正确 化 和 规范 
化 ， 从 而 达到 用 户 要 求 的 数据 质量 标准 。 其 中 数据 “缺陷 ”可 能 包括 以 下 儿 种 情况 数值 
重复 、 数 据 缺 失 、 数 据 错 误 、 数 据 范 围 混 消 、 存 在 “ 脏 ” 数 据 和 数据 不 一 致 等 几 种 情况 ， 
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如 图 7-43 所 示 。 其 中 数值 重复 是 指标 准 不 唯一 ， 很 多 数值 都 代表 痢 相 同 的 含义 。 数 据 范 转 
混 消 是 指 相同 的 数值 会 应 用 到 不 同 的 场合 中 ， 代 表 痢 不 同 的 含义 。 

第 一 步 ， 需 要 跟 业 务 部 门 进 行 沟通 交流 。 为 了 提 
高 数据 的 质量 ， 得 到 标准 的 数据 ， 应 该 首先 过 滤 掉 不 
符合 业务 要 求 的 数据 ， 这 些 数据 都 违背 业务 规则 ， 数 
据 清 洗 过 程 会 根据 业务 规则 去 修正 这 些 数 据 ， 每 个 业 
务 规则 都 规定 了 数据 必须 满足 的 条 件 ， 然 后 通过 ETL 
程序 去 修正 这 些 不 符合 业务 规则 的 数据 。 

第 二 步 ， 为 了 确保 用 于 决策 分 析 的 数据 质量 ， 需 
要 跟 用 户 积 极 沟通 ， 将 缺失 的 数据 补 全 ， 最 后 才能 过 
滤 到 数据 仓库 中 。 而 那些 错误 的 数据 ， 应 该 等 用 户 完 
全 修正 后 再 抽取 。 重 复 的 数据 ， 同 样 应 该 等 用 户 确 认 
完毕 后 再 进行 抽取 。 我 们 应 该 理解 数据 清洗 是 一 个 非 图 7-43 ”数据 “缺陷 ”图 
常 费 时 、 复 杂 的 工程 ， 需 要 多 个 业务 部 门 的 配合 和 技 
术 开 发 人 员 对 业务 数据 的 理解 ， 通 过 不 断 修正 问题 和 解决 问题 才能 完成 。 

数据 清洗 的 流程 包括 以 下 几 个 方面 ， 如 图 7-44 所 示 。 


定义 业务 分 析 业 务 > 

和 如 浙 || 生 所 源 | 忆 >| 将 数据 标准 化 
a 通过 业务 规则 
合并 数据 “| 《已 | 修正 错误 数据 


图 7-44 数据 清洗 的 流程 图 
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(1) 定义 业务 数据 源 

标识 出 满足 需求 的 数据 源 ， 并 且 决 定 什 么 时 候 进 行 数据 清洗 。 

(2) 分 析 业 务 数据 源 

分 析 数 据 源 的 数据 是 否 符 合 业务 的 规则 和 定义 ， 是否 存在 非 正常 的 数据 结构 。 

(3) 将 数据 标准 化 

定义 标准 化 格式 的 数据 ， 并 且 加 以 转换 。 

(4) 通过 业务 规则 修正 错误 数据 

定义 是 否 为 正确 数据 的 标准 ， 确 定 如 何 处 理 错误 数据 的 方法 。 

(5) 合并 数据 

将 属于 同一 实体 的 多 个 数据 进行 合并 ， 合 并 时 应 该 有 去 重 的 功能 。 

(6) 忆 结 数据 错误 类 型 

通过 总 结 数据 出 错 的 类 型 ， 提 高 清洗 程序 的 完整 性 和 正确 性 ， 从 而 降低 数据 出 现 重 大 问 
题 的 可 能 性 。 

3. 数据 转换 

数据 转换 是 指 从 业务 系统 中 抽取 出 源 数 据 ， 然 后 根据 数据 仓库 模型 的 需求 ， 进 行 一 系列 
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数据 转换 的 过 程 。 

我 们 已 经 知道 数据 转换 是 整个 ETL 过 程 中 复杂 程度 相对 较 高 的 过 程 ， 包 括 对 数据 不 一 
致 性 的 转换 ， 业 务 指标 的 计算 和 某 些 数据 的 汇总 ， 为 决策 分 析 系 统 提 供 数 据 支持 。 其 中 对 数 
据 不 一 致 性 的 转换 就 是 依赖 于 编码 表 的 设计 ， 通 过 电压 等 级 编 妈 表 ( 见 表 7-3) 将 不 同业 务 
系统 中 相同 类 型 的 数据 进行 转换 ， 即 将 各 个 省 市 的 电力 过 销 系统 的 电压 等 级 编码 标准 化 ， 例 
如 将 110 kV 的 编码 统一 设置 成 1，220kV 的 编码 设置 成 2，380 kV 的 编码 设置 成 3，500 kV 
的 编码 设置 成 4，1000 kV 的 编码 设置 成 5， 以 消除 数据 仓库 系统 中 数据 存在 不 一 致 的 
可 能 。 

















表 7-3 电压 等 级 编码 表 
电压 等 级 /kV 电压 等 级 编码 
110 
220 
380 
500 








hi 大 |wD PP 天 


1000 





通过 建立 程序 代码 编写 规范 ， 与 模型 设计 小 组 共同 制定 编码 规则 ， 不 仅 可 以 提高 数据 模 
型 的 可 靠 性 、 可 读 性 、 可 修改 性 、 可 维护 性 和 一 致 性 ， 而 且 还 会 提高 数据 模型 的 可 继承 性 ， 
促使 每 个 人 的 成 果 可 以 互相 共享 。 同 时 也 应 该 建立 公共 的 编码 表 作为 数据 转换 的 依据 ， 可 以 
根据 编码 表 制 定 的 业务 规则 进行 数据 的 转换 ， 保 证 数据 仓库 系统 内 部 数据 的 一 致 性 。 例 如 ， 
性 别 在 客户 关系 表 中 用 1 和 0 分 别 代 表 男 和 女 ， 而 在 单位 员工 表 中 可 能 使 用 m 和 f 区 分 男 和 
女 ， 需 要 对 不 同业 务 表 中 相同 类 型 的 业务 侣 义 进行 统一 和 规范 。 

在 转换 过 程 中 ， 对 粒度 的 分 析 也 是 工作 的 重要 组 成 部 分 ， 因 为 存放 到 数据 仓库 中 的 数据 
对 粒度 的 要 求 可 能 不 相同 ， 用 户 需 要 将 低 粒 上 度 的 数据 汇总 形成 决 傈 分析 型 的 数据 ， 同 时 完成 
各 种 数据 指标 的 计算 ， 这 都 需要 经 过 ETL 转换 过 程 。 最 后 一 步 ， 将 转换 后 得 到 的 数据 加 载 
到 数据 仓库 中 ， 以 供 企业 高 层 领导 决策 分 析 时 使 用 。 

ETL 转换 过 程 可 能 包括 以 下 几 个 方面 ， 如 图 7-45 所 示 。 

1) 对 空 值 的 处 理 : 如 条 在 转换 过 程 中 捕获 到 某 些 字段 存在 空 值 ， 那 么 在 进行 加 载 时 需 
要 将 空 值 蔡 换 成 茶 一 数据 或 者 直接 进行 加 载 ， 不 做 任何 转换 。 

2) 对 数据 格式 的 规范 化 : 根据 业务 数据 源 中 各 个 字段 的 数据 类 型 ， 进 行 数 据 格式 的 规 
汇 和 统一 。 例 如 ， 统 一 将 数值 类 型 转化 成 字符 串 类 型 。 

3) 根据 业务 需求 进行 字段 的 拆 分 或 者 


合并 。 对 空 值 的 处 理 | 已 > | 对 数据 格式 的 
4) 对 缺失 数据 的 蔡 换 ， 根据 业务 需求 规 江 化 


对 缺失 数据 进行 蔡 换 。 

5) 根据 业务 规则 对 效 据 进行 过 小 。 

6) 根据 编码 表 进 行 数据 唯一 性 的 转换 ， 
根据 编码 表 制 定 的 业务 规 犯 进行 效 据 的 转换 ， 
































人 | 对 缺失 数据 肌 
替换 


实现 数据 仓库 系统 内 部 数据 的 一 致 性 。 图 7-45 ETL 的 转换 过 程 
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4 数据 加 载 
数据 的 加 载 过 程 就 是 将 已 经 转换 完成 的 数据 存放 到 目标 数据 库 的 过 程 。 这 是 ETL 过 程 


中 的 最 后 一 步 ， 需 要 保证 加 载 工具 必须 具有 高 效 
的 性 能 去 完成 数据 加 载 ， 同 时 还 需要 考虑 数据 加 一 
载 的 周期 和 策略 。 数 据 加 载 策略 包括 时 间 戳 的 加 “| ，， Wi | 全 表 对 比 | 通过 读 取 | 全 表册 除 





9 加 载 ” | 日 志 表 进 | 后 再 进行 
载 方式 、 全 表 对 比 的 加 载 方 式 、 通 过 谈 取 日 志 加 载 方式 J 行 加 载 的 | 加载 的 





进行 加 载 的 方式 、 全 表 删 除 后 再 进行 加 载 的 方 Cee 
式 ， 如 图 7-46 所 示 。 芝 

时 间 截 的 加 载 方式 是 通过 对 源 系统 的 表 添加 ee 
时 间 蕉 字段 ， 将 系统 当前 时 间 和 时 间 戳 的 值 进行 对 比 ， 决 定 哪些 业务 数据 需要 被 抽取 ， 可 以 
实现 数据 的 递增 加 载 ， 是 比较 常见 的 一 种 加 载 方式 。 

全 表 对 比 的 加 载 方式 是 在 数据 加 载 前 ， 将 每 条 数据 都 与 目标 表 的 所 有 记录 进行 全 表 对 
比 ， 根 据 主键 值 是 否 相 同 ， 判 断 数据 是 更 新 还 是 搬入 。 当 数据 量 比较 大 的 时 候 ， 有 耗 时 长 、 
效率 低 的 缺点 。 通 常 也 对 全 表 对 比 进行 政 进 ， 采 用 版 本 号 、 标 记 字 段 等 缓慢 变化 维 的 形式 进 
行 增 量 的 抽取 。 

通过 读 取 日 志 表 进行 加 载 的 方式 是 当 源 数据 表 发 生变 化 时 ， 不 断 更 新 日 志 表 的 信息 ， 将 
日 志 表 的 信息 作为 数据 加 载 的 一 个 依据 。 日 志 表 维 护 相对 麻烦 ， 会 存在 一 定 风险 。 

全 表 删 除 后 再 进行 加 载 的 方式 是 在 数据 加 载 前 ， 先 删除 目标 表 的 所 有 数据 ， 然 后 去 加 载 
全 部 的 数据 ， 但 是 不 能 实现 数据 的 递增 加 载 ， 效 率 较 低 ， 实 现 方式 却 相对 简单 。 


7.5.7 ETL 的 日 志 


ETL 的 日 志 功 能 非常 重要 ， 可 以 记录 ETL 执行 过 程 中 的 每 一 步 信 息 ， 包 括 运行 的 起 始 
时 间 和 结束 时 间 ， 历 史 数 据 的 抽取 记录 ， 数 据 抽取 的 行 数 和 运行 到 某 一 步 的 出 错 信息 ， 出 错 
时 间 等 内 容 。 当 然 ETL 工具 是 自动 产生 这 些 日 志 人 信息， 帮助 系统 维护 人 员 进 行 监控 的 。 如 
果 ETL 过 程 中 出 现 错误 ， 将 要 形成 错误 日 志 ， 系 统管 理 员 可 以 通过 邮件 或 者 其 他 方式 接收 
到 该 错误 信息 ， 然 后 对 该 错误 及 时 进行 处 理 。 当 然 ， 我 们 已 经 知道 ETL 的 日 志 信 息 也 可 以 
作为 数据 加 载 的 一 个 策略 ， 通 过 读 取 日 志 表 的 形式 有 计划 地 进行 数据 加 载 。 


7.5.8 ETL 设计 规范 要 点 


ETL 设计 需要 遵循 业务 数据 人 处理 的 要 求 ， 根 据 问题 的 多 样 性 和 不 确定 性 ， 在 设计 过 程 中 
需要 依照 以 下 原则 ( 见 图 7-47)。 

1) 在 ETL 设计 之 前 ， 需 要 根据 业务 的 需求 确定 所 要 分 析 的 主题 和 数据 结构 。 

根据 数据 仓库 的 模型 ， 考 虑 在 ETL 设计 中 是 否 增加 预 留 字段 和 属性 。 

2) 确定 数据 的 粒度 。 可 以 通过 粗 粒 度 减少 数据 的 总 量 ， 也 可 以 根据 细 粒 度 妃 溯 到 最 底 
层 的 数据 ， 探 寻 原 因 。 粒 度 的 大 小 是 业务 需求 和 分 析 的 主题 所 确定 的 。 

3) 确定 ETL 抽取 的 周期 和 时 间 。 根 据 用 户 的 需求 ， 在 设计 ETL 之 前 就 应 该 确定 抽取 的 
时 间 、 抽 取 的 周期 。 

4) 将 增 量 抽取 的 方式 作为 ETL 设计 的 重点 ,减少 数据 抽取 的 压力 和 抽取 的 时 间 。 

5) 通常 数据 的 抽取 和 清洗 可 以 分 成 许多 步骤 ， 根 据 不 同 的 条 件 采 用 不 同 的 处 理 逻 辑 。 
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图 7-47 ETL 的 设计 原则 


6) 对 卉 弟 情 况 的 处 理 。 网 络 的 中 断 、 数 据 流动 过 程 中 各 种 未 知 的 错 识 ， 都 需要 通过 相 


应 的 措施 去 解决 ， 以 保证 数据 的 正确 性 。 

7) 对 ETL 的 运行 管理 和 监控 措施 。 可 以 使 用 ETL 工具 中 的 管理 监控 组 件 对 ETL 进行 
设置 ， 当 ETL 出 现 异常 时 可 以 进行 人 工 干预 ,或 者 通过 程序 自动 调度 功能 ， 对 每 一 步 的 错 
误 异 第 都 调用 相应 的 处 理 程序 目 动 去 解决 ， 以 保证 数据 的 质量 。 

总 结 : 按照 以 上 设计 原则 ， 可 以 增加 数据 仓库 系统 的 灵活 性 和 扩展 性 ， 从 而 保证 数据 的 


AN 一 口 : 


正确 性 ， 降 低 维 护 成 本 。 


7. 5.9 ETL 的 框架 结核 


ETL 的 框架 结构 包括 ETL 调度 、 抽 取 和 策略、 转换 策略 、 加 载 策略 等 ， 如 图 7-48 所 示 。 
它 的 每 一 步 包括 抽取 、 转 换 、 加 载 的 信息 都 记录 到 日 志文 件 中 ， 以 便 系 统 维护 人 员 查 看 ETL 











ETL 服务 器 
ETL 调度 
| 抽取 策略 加 载 策略 
一 
全 





图 7-48 ETL 框架 结构 图 
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的 运行 信息 ， 同 时 ETL 又 有 异常 处 理 的 功能 ， 对 于 每 一 步骤 的 异常 都 有 相应 的 处 理 流程 。 

统一 调度 是 ETL 中 较为 重要 的 功能 ， 通 常 有 以 下 两 种 幸 度 方式 。 

1) 上 自动 调度 方式 : 可 以 使 用 ETL 工具 ， 每 天 定时 启动 后 台 程 序 ， 自 动 完成 ETL 的 处 理 
流程 和 加 载 过 程 。 

2) 手工 方式 : 用 户 可 以 通过 前 台 应 用 系统 ， 使 用 它 的 监控 功能 对 一 些 ETL 处 理 程序 进 
行 手 工 调度 。 

当然 ， 无 论 采 用 何 种 调度 方式 ， 都 需要 有 报警 和 监控 的 功能 ， 用 来 提醒 管理 人 员 在 处 理 
数据 过 程 中 是 否 出 现 错误 。FTL 框架 结构 是 整个 商业 智能 系统 的 核心 部 分 ， 占 有 重要 地 位 。 


7. 5. 10 ETL 数据 加 载 


1. 日 常 增 量 处 理 
对 于 日 常数 据 的 增 量 处 理 有 以 下 几 种 方法 ， 如 图 7-49 所 示 。 


自 增 长 的 序列 号 方法 


















各 
采用 触发 器 的 方法 wiy 


图 7-49 日 常数 据 的 增 量 处 理 方 法 


由 整 表 对 比 的 方法 





(1) 时 间 惟 的 方法 

对 于 交易 流水 信息 ， 可 以 采用 时 间 戳 的 方式 获取 增 量 数据 。 

(2) 自 增 长 的 序列 号 方法 

可 以 通过 设置 自 增 长 序列 号 的 方式 生成 唯一 主键 。 

(3) 更 改 标记 位 方法 

通过 定义 一 个 字段 作为 数据 被 更 改 的 标识 。 人 例如， 设置 syn_flag 字段 ， 初 始 化 为 0， 当 
记录 被 修改 时 ， 置 为 1。 

(4) 整 表 对 比 的 方法 

对 于 没有 时 间 惟 的 增 量 数据 ， 同 时 数据 量 又 不 大 ， 可 以 采用 整 表 对 比 的 方式 找 出 增 量 数 
据 ， 如 编码 表 。 

(5) 采用 触发 右 的 方法 

在 源 系 统 数据 表 上 建立 触发 器 ， 当 数据 项 发 生变 化 时 ， 记 录 到 表 中 ,但 是 对 业务 系统 会 
有 一 定 的 性 能 影响 。 

2. 数据 初始 化 处 理 

从 架构 的 角度 来 说 ，ETL 初始 装载 和 日 党 增 量 加 载 的 策略 有 所 不 同 ， 需 要 考虑 以 下 几 个 
方面 ， 如 图 7-50 所 示 。 
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”对 数据 源 的 需求 | 初始 化 前 的 准备 


初始 化 过 程 中 的 监控 上 初始 化 事后 检查 





图 7-50 需 考 虑 的 因素 


(1) 对 数据 源 的 要 求 

对 于 ODS 系统 来 说 ， 面 临 的 源 系统 可 能 很 多 ， 源 系统 需要 提供 初始 化 到 上 线 时 间 点 的 
完整 信息 。 在 ETL 开发 的 同时 ， 需 要 确保 在 规定 的 时 间 点 内 ，ODS 系统 可 以 完成 初始 化 装 
载 。0DS 系统 在 上 线 前 需要 将 历史 数据 全 部 导入 到 ODS 系统 的 物理 表 中 。 一 些 细节 问题 也 
需要 考虑 ， 例 如 在 初始 化 装载 前 ， 应 该 先 删 除 索 引 ， 再 进行 历史 数据 的 加 载 ， 加 载 成 功 后 ， 
再 重新 创建 索引 。 

(2) 初始 化 前 的 准备 

在 初始 化 之 前 ， 应 该 对 历史 数据 进入 到 物理 磁盘 时 的 容量 进行 估算 ， 可 以 先 预 留 较 大 的 
空间 ， 当 初始 化 完成 后 再 进行 缩减 。 

(3) 初始 化 过 程 中 的 监控 

在 数据 初始 化 过 程 中 需要 进行 监控 ， 以 保证 该 过 程 能 够 正常 运行 和 对 错误 的 记录 。 对 于 一 
些 拒 绝 挥 的 文件 ， 应 该 通过 事后 分 析 ， 以 决定 是 否 应 该 重新 加 载 ， 或 者 采用 手工 录入 的 方式 。 

(4) 初始 化 事后 检查 

当初 始 化 完成 之 后 ， 需 要 对 数据 进行 检查 ， 以 保证 入 库 数 据 的 准确 性 ， 可 以 进行 自动 化 
统计 ， 或 者 由 业务 部 门 进行 核对 确认 。 

3. 错误 处 理 与 恢复 

在 ETL 过 程 中 ， 数 据 加 载 可 能 会 出 现 各 种 错误 ， 可 以 利用 作业 调度 平台 与 监控 系统 对 
各 种 异常 情况 进行 处 理 。 

举例 来 说 ， 可 以 在 作业 流程 中 设置 异常 条 件 ， 当 错误 记录 超出 一 定 国 值 时 ， 则 需要 转 为 
人 工 处 理 。 设 计 的 原则 是 尽量 采用 自动 的 方式 ， 同 时 根据 实际 情况 ， 将 自动 化 处 理 与 人 工 处 
理 相 结合 。 

4. 异常 情况 处 理 策略 

ETL 过 程 可 能 发 生 的 异常 包括 如 下 几 种 . 

1) 因为 硬件 、 操 作 系 统 或 者 网 络 等 原因 造成 的 异常 。 

2) 目标 物理 模型 的 问题 导致 的 异常 。 

3) 因为 人 工 干预 导致 的 异常 。 

对 ETL 过 程 中 的 异常 情况 ， 我 们 应 该 采取 哪些 策略 : 

1) 如 果 发 生硬 件 、 操 作 系 统 或 者 网 络 导致 的 异常 ， 可 以 采取 ETL 中 断 处 理 ， 在 系统 运 
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维 人 员 通 知 故 障 排除 后 ， 分 析 造 成 的 影响 ， 通 过 手工 干预 的 方式 调整 ETL 过 程 。 

2) 当 物 理 模型 发 生变 更 时 ，ETL 将 执行 中 断 处 理 ， 当 模型 修改 完成 后 ， 调 整 ETL 程 
序 ， 并 重新 进行 处 理 。 

3) 生产 环境 应 该 建立 合理 的 流程 和 规章 制度 ， 尽 量 减 少 人 工 干 预 的 次 数 ， 降 低 因 为 人 
工 干 预 造成 的 影响 。 











7.6 商业 智能 一 OLAP 概述 


OLAP (On -jline Analytical Processing ， 联机 分 析 处 理 ) 系统 能 够 帮助 决策 分 析 人 员 从 多 
个 角度 分 析 数 据 。 要 想 理解 OLAP 的 概念 ， 必 须 先 了解 以 下 几 个 重要 的 概念 。 

1) 维度 : 是 指 人 们 观察 事物 的 角度 ， 如 地 区 维度 、 时 间 维 度 、 产 品 维度 等 。 

2) 层次 : 根据 描述 维度 细 市 程度 的 不 同 ， 划 分 数据 在 逻辑 上 的 每 级 关系 ， 用 来 描述 维 
度 的 各 个 方面 。 例 如 ， 时 间 维 度 包 括 年 、 季 度 、 月 、 日 等 层次 ， 地 区 维度 包括 国家 、 和 省 
市 、 县 等 层次 。 

维度 和 层次 的 关系 如 图 7-51 所 示 。 

3) 维度 成 员 : 维度 的 取 值 ， 即 维度 中 的 各 个 数据 元 素 的 取 值 。 例 如 ， 地 区 维度 中 具体 
的 成 员 有 类 国 、 法 国 、 德 国 、 西 班 牙 。 

维度 和 维度 成 员 的 关系 如 图 7-52 所 示 。 




















维度 


维度 成 员 





图 7-51 维度 和 层次 的 关系 图 7-52 维度 和 维度 成 员 的 关系 


4) 销 取 : 通过 变换 维度 的 层次 ， 改 变 粒 度 的 大 小 。 它 包括 向 上 和 销 取 (Drill Up) 和 向 
下 销 取 (Drill Down) 。 回 上 个 取 是 将 细 玉 数据 同上 追溯 到 最 高 层次 的 汇总 数据 。 回 下 外 取 是 
将 最 高 层次 的 汇总 数据 深入 到 最 低层 次 的 细节 数据 中 。 

5) 旋转 : 通过 变换 维度 的 方向 ， 重 新 安排 维 的 位 置 ， 如 行列 互 换 。 

6) 切片 和 切 块 : 在 一 个 或 者 多 个 维度 上 选取 固定 的 值 ， 分 析 其 他 维度 上 的 度量 数据 。 
如 果 其 他 维度 剩余 两 个 ， 则 是 切片 ; 如 果 是 3 个 ， 则 是 切 块 。 

7) 度量 : 多 维 数据 的 取 值 ， 如 销售 额 、 利 润 。 

8) ROLAP: 是 基于 关系 型 数据 库 的 OLAP， 即 以 关系 型 数据 库 为 基础 ， 对 多 维 数据 的 存储 。 

9) MOLAP: 是 基于 多 维 数据 库 的 OLAP， 其 中 切片 、 切 块 是 主要 技术 。 

10) HOLAP: 是 基于 关系 型 和 多 维和 矩阵 型 等 混合 型 的 OLAP 实现 。 

总 结 : OLAP 是 针对 决策 分 析 人 员 和 企业 管理 人 员 从 多 个 角度 对 数据 进行 分 析 ， 随 着 市 
场 竞争 的 日 益 激 烈 ，OLAP 的 应 用 越 来 越 广泛 ， 它 可 以 从 不 同 的 角度 去 分 析 各 种 指标 。 例 
如 ， 当 分 析 企 业 利 润 指标 时 ， 可 能 综合 时 间 维 度 、 地 区 维度 、 产 品类 别 维度 、 客 户 类 别 维度 
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等 多 种 因素 来 衡量 利润 的 值 是 多 少 ， 最 后 通过 报表 进行 展示 。OLAP 的 最 大 特点 就 是 通过 多 
维 模型 ， 用 户 可 以 动态 地 从 多 个 角度 分 析 数 据 ， 增 加 了 分 析 的 灵活 性 和 时 歼 性 ， 大 大 提高 了 
企业 管理 的 效率 ， 这 是 OLAP 发 展 的 根本 原因 之 一 。 


7.6.1 OLAP 系统 与 OLTP 系统 的 区 别 

OLTP (在 线 联机 事务 处 理 ) 系统 主要 面向 细节 性 的 数据 ， 存 储 的 都 是 当前 的 数据 ， 用 
来 支持 日 常 业 务 运 作 。 这 些 数 据 都 是 可 以 更 新 的 ， 数 据 处 理 量 相 对 较 小 。OLAP 系统 主要 是 
综合 的 、 并 且 经 过 提炼 的 数据 ， 而 且 主 要 是 历史 数据 ， 不 可 修改 ， 数 据 人 处 理 量 相 对 较 大 , 主 
要 面向 决策 分 析 处 理 。 它 们 的 区 别 如 图 7-53 所 示 。 




















OLTP 系统 OLAP 系统 


。 细 市 性 数据 。 综合 和 经 过 提炼 的 
。 当 前 数据 数据 
。 可 更 新 的 。 历史 数据 


。 数据 处 理 量 较 小 。 不 可 修改 

。 面向 事务 处 理 。 数 据 处 理 量 较 大 

。 面向 业务 操作 人 员 。 面 问 决 策 分 析 处 理 
。 面 向 决策 管理 层 人 员 








图 7-53 ”OLTP 系统 和 OLAP 系统 的 区 别 


7.6.2 OLAP 的 实现 方法 








OLAP 有 多 种 实现 方法 ,根据 存储 数据 方式 的 不 同 , 可 以 分 为 MOLAP、ROLAP、 
HOLAP， 如 图 7-54 所 示 。 





图 7-54 根据 存储 方式 划分 的 OLAP 的 实现 方法 


ROLAP (Relational OLAP) 表示 基于 关系 型 数据 库 的 OLAP 实现 。 它 的 技术 依赖 于 关系 
型 数据 ， 以 关系 型 数据 库 为 核心 ， 以 关系 型 结构 对 多 维 数据 进行 数据 存储 和 展现 。 通 常 
ROLAP 将 多 维 数据 分 成 事实 表 和 维 表 ， 事 实 表 存 储 的 都 是 指标 数据 和 维 表 的 关键 字段 值 ， 
维 表 多 数 存 储 维度 的 层次 、 维 度 的 成 员 值 等 信息 。 事 实 表 以 存储 的 产品 站、 产品 类 型 ID、 
地 址 ID 和 时 间 ID 作为 连接 维 表 的 关键 字段 ， 以 销售 数量 作为 指标 数据 。 

维 表 包 括 产 品 维 表 、 时 间 维 表 、 产 品类 型 维 表 、 地 理 位 置 维 表 。 维 表 和 事实 表 通 过 主 外 
关键 字 关 联 在 一 起 ， 形 成 了 星 形 模式 ， 如 图 7-55 所 示 。 

对 于 层次 复杂 的 维 ， 可 以 使 用 多 个 表 来 描述 ， 这 种 对 星 形 模 式 的 扩展 称 为 雪人 花形 模式 。 
事实 表 以 存储 的 产品 ID 、 产 品类 型 ID 、 地 址 ID 和 时 间 ID 作为 关联 维 表 的 关键 字段 ， 以 销 
售 数量 作为 指标 数据 。 维 表 有 产品 维 表 、 时 间 维 表 、 产 品类 型 维 表 、 地 址 维 表 ， 地 址 维 表 又 
包括 国家 、 省 级 、 地 市 等 维 表 ， 如 图 7-56 所 示 。 通 过 最 大 限度 地 减少 数据 存储 量 以 及 关联 
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较 小 的 维 表 来 改善 数据 查询 的 性 能 ， 这 是 典型 的 雪花 形 模式 。 


产品 ID 


产品 类 型 ID 


地 址 ID 
时 间 ID 
销售 数量 





图 7-55 ”ROLAP 的 多 维 关系 图 ( 星 形 模 式 ) 


产品 
维 表 


ID 
a 地 理 
地 址 ID 靠 表 
时 间 ID 
销售 数量 





图 7-56 ”ROLAP 的 多 维 关系 图 (雪花 形 模式 ) 


MOLAP (Multidimensional OLAP) 表示 基于 多 维 数 
据 的 OLAP 实现 。 它 的 技术 手段 主要 有 “ 切 块 "、“ 切 
片 "， 数 据 检索 速度 较 快 , 但 是 生成 立方 体 的 时 间 较 
长 ， 数 据 存储 在 多 维 立 方 体 中 。MOLAP 多 维 立方 体 如 
图 7-57 所 示 。 

HOLAP (Hybrid OLAP) 表示 基于 混合 型 的 OLAP 
实现 。 它 的 技术 主要 结合 MOLAP 和 ROLAP 两 种 技术 的 
优点 。 











图 7-57 MOLAP 多 维 立方 体 


2 


7.6.3 OLAP 的 基本 目标 和 特点 


OLAP 的 基本 目标 就 是 文 持 决策 分 析 和 多 维 数 据 查 询 。OLAP 通过 对 信息 的 各 种 形式 的 
存 取 ， 满足 企 业 决 策 人 员 和 管理 人 员 对 复杂 查询 的 处 理 ， 并 且 将 结果 提供 给 决策 分 析 人 员 ， 
使 他 们 对 企业 的 运营 状况 有 更 深入 的 了 解 ， 能 够 制定 出 正确 的 决策 方针 。OLAP 是 引领 企业 
发 展 的 “灯塔 ”。 

OLAP 系统 的 特点 包含 以 下 几 个 方面 。 

1) 丰富 的 报表 展示 功能 : OLAP 系统 一 般 有 丰富 的 报表 展示 功能 ， 如 柱 形 图 、 折 线 图 、 
饼 形 网 。 

2) 数据 访问 和 多 维 分 析 的 能 力 : 提供 给 用 户 数据 访问 和 多 维 分 析 的 能 力 ， 并 以 用 户 硕 
望 的 方式 进行 展示 。 

3) 快速 的 数据 分 析 能 力 : OLAP 系统 有 秒 级 的 数据 分 析 能 力 。 

OLAP 的 特点 如 图 7-58 所 示 。 








OLAP 系统 
的 特点 





数据 访问 
和 多 维 分 
析 的 能 


图 7-58 ”OLAP 的 特点 


7.6.4 建立 OLAP 的 过 程 


建立 OLAP 的 过 程 如 图 7-59 所 示 。 


定义 ROLAP 模型 
设计 星 形 模型 可 
构造 MOLAP 模型 


出 





汇总 数据 


图 7-59 建立 OLAP 的 过 程 


为 了 提高 OLAP 系统 的 效率 ,设计 数据 仓 库 时 应 该 考虑 如 下 因素 : 
1) 为 事实 表 和 维度 表 中 的 关键 字 创 建 索 引 ， 以 提高 数据 查询 的 效率 。 同 一 类 数据 尽 可 
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能 使 用 一 个 事实 表 ， 以 减少 表 之 间 的 关联 。 

2) 事实 表 中 尽量 不 要 包含 汇总 类 型 的 数据 。 

3) 维 表 的 设计 应 该 符合 第 三 范式 的 约束 ， 维 表 中 不 要 存储 无 天 的 数据 。 

4) 数据 仓库 设计 的 好 坏 直 接 影响 建立 OLAP 系统 的 难 易 程 度 和 效率 ， 同 时 OLAP 系统 
又 是 数据 仓库 系统 的 一 种 多 维 展现 方式 。 


7.6.5 ”OLAP 的 实施 过 程 


OLAP 系统 的 实施 一 般 过 程 〈 见 图 7-60) 包括 以 下 几 个 步骤 : 

1) 源 系 统 经 过 ETL 过 程 装载 到 0DS 数据 缓冲 区 中 ， 目 的 是 将 所 有 的 业务 数据 集成 
起 来 。 

2) 从 0DS 数据 缓冲 区 中 将 数据 抽取 到 ODS 统一 信息 视图 区 ,目的 是 使 用 户 能 够 通过 
ODS 统一 信息 视图 区 获得 跟 某 个 主题 域 相 关 的 实时 数据 。 

3) 将 数据 从 ODS 统一 信息 视图 区 抽取 到 数据 仓库 中 ， 

4) 数据 集 市 里 的 数据 在 数据 仓库 中 经 过 转换 、 汇 总 计算 获取 ， 下 接 文 撑 OLAP 多 维 
分 析 OO 

5) 最 后 OLAP 系统 文 持 多 维 数据 分 析 。 

其 中 ODS 数据 缓冲 区 和 ODS 统一 信息 视图 区 可 以 合并 成 一 个 ， 同 时 具有 数据 缓冲 和 和 集 
成 的 功能 。 











源 系 统 | ODS 统一 信息 视图 区 | 








Bo 


» 








图 7-60 ”OLAP 系统 的 实施 过 程 


7.6.6 ”OLAP 模型 的 设计 与 实现 

(1) 了 解 用 户 的 需求 

作为 解决 方案 的 提供 者 ,我们 需要 理解 业务 规则 ， 了 解 当前 的 业务 状况 ， 不 仅 需 要 和 系 
统 相关 人 员 进 行 交 流 ， 还 需要 和 系统 的 设计 者 和 开发 者 进行 沟通 。 

首先 ， 对 用 户 进 行 分 类 ， 理 解 用 户 对 数据 的 可 用 性 和 访问 速度 的 要 求 。 其 次 ， 需 要 了 解 
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不 同 用户 对 系统 的 访问 频率 ， 每 类 用 户 的 数量 和 需要 。 
分 析 的 数据 量 是 多 少 。 再 次 ， 需 要 大 致 清楚 系统 的 数 。” 必 
据 总 量 应 该 是 多 少 。 当 我 们 已 经 了 解 了 用 户 和 数据 源 /CW 
的 基本 情况 后 ， 可 以 考虑 系统 能 够 满足 客户 的 需求 有 4 
邬 些 。 用 户 、 开 发 者 、 管 理 者 是 通过 需求 文档 进行 交 。 7 ee A 
流 沟通 的 ， 如 图 7-61 所 示 。 而 用 户 最 关心 的 问题 就 > 完 
是 开发 者 是 否 完成 了 需求 文档 所 要 求 的 功能 特性 。 

(2) 逻辑 模型 的 设计 

通常 所 说 的 数据 模型 一 般 有 两 个 层次 : 逻辑 层 、 
物理 层 。 逻 辑 模型 描述 现实 世界 的 内 在 规律 和 业务 规 
则 。 物 理 模型 描述 数据 库 内 部 存储 的 具体 实现 。 
OLAP 模型 是 一 个 逻辑 概念 ， 主 要 是 对 数据 进行 多 角 图 7-61 了 解 用 户 的 需求 
度 的 分 析 ， 以 便 为 企业 决策 者 和 管理 者 提供 各 种 信息 
和 知识 。“ 多 维 结构 ”是 OLAP 世界 的 核心 ， 而 多 维 模型 通过 维度 、 层 次 、 度 量 三 者 之 间 的 
关系 分 析 数 据 。 

举例 来 说 ， 如 果 有 一 个 销售 系统 ， 度 量 值 可 能 包括 销售 额 、 成 本 、 利 润 ， 维 度 包 括 时 
间 、 产 品类 型 。OLAP 逻辑 模型 的 设计 就 像 是 桥梁 ， 一 端 是 用 户 的 需求 ， 另 一 端 是 业务 数据 
源 。 销 售 额 、 成 本 、 利 润 是 需要 展现 、 存 储 的 内 容 ， 随 着 时 间 、 产 品类 型 的 变化 而 变化 。 

(3) OLAP 的 分 析 过 程 

首先 根据 逻辑 模型 定义 OLAP 多 维 模型 ， 在 定义 模型 的 过 程 中 ， 需 要 根据 业务 需求 定义 
“立方 体 ”， 分 析 方法 有 “切片 ”和 “ 切 块 "。 例 如 ， 在 “利润 、 地 区 、 时 间 ” 三 维 立 方 体 
中 进行 切 块 和 切片 ， 可 得 到 各 地 区 、 各 产品 的 销售 利润 情况 ， 如 图 7-62 所 示 。 
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图 7-62 商业 智能 OLAP 的 例子 
7.7 传统 商业 智能 和 未 来 商业 智能 的 关系 


对 于 传统 商业 智能 和 未 来 商业 智能 的 区 别 ， 有 这 样 一 种 观点 : 如 图 7-63 所 示 ， 传 统 的 
商业 智能 只 是 提供 类 似 汽车 后 视 镜 的 作用 ， 只 能 看 到 行驶 过 的 路 程 ， 而 不 能 看 到 远方 ， 即 传 
统 商 业 智 能 通过 查看 历史 数据 ， 分 析 以 前 的 情况 。 事 实 上 ， 传 统 的 商业 智能 有 查询 、 报 表 展 
示 、 多 维 分析 、 数 据 控 掘 的 内 容 , 已 经 包含 了 预测 分 析 的 能 力 。 因 此 ， 上 述 观点 是 不 正 
确 的 。 
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未 来 商业 智能 
预测 未 来 











图 7-63 传统 的 商业 智能 和 未 来 商业 智能 区 别 的 某 种 观点 


而 未 来 商业 智能 真正 要 解决 的 问题 是 : 

1) 建立 实时 动态 的 数据 仓库 。 因 为 传统 意义 上 的 数据 仓库 是 基于 历史 数据 分 析 ， 而 动 
态 数据 仓库 是 基于 前 并 应 用 ， 增 加 对 非 结 构 化 数据 的 处 理 ， 可 以 大 大 弦 短 咽 应 的 时 间 。 

2) 用 户 对 数据 可 视 化 的 要 求 会 越 来 越 多 ， 同 时 增强 了 对 商业 智能 实时 性 的 要 求 ， 甚 至 
在 将 来 ， 人 们 可 以 将 商业 智能 转移 到 于 机 移动 终 闪 上， 实现 动态 分 析 和 实时 分 析 等 。 














小 结 


e 我 们 对 商业 智能 做 一 个 简单 的 定义 ， 那 就 是 : 帮助 用 户 把 一 些 数据 转化 成 具有 商业 价值 
的 ， 而 且 可 以 获取 的 信息 和 知识 ， 同 时 在 最 恰当 的 时 候 ， 通 过 某 种 方式 把 信息 传递 给 需 
要 的 人 。 从 专业 的 角度 来 说 ， 商 业 智能 就 是 利用 数据 仓库 、 数 据 分析 和 挖掘 技 术 ， 以 抽 
取 、 转 换 、 查 询 、 分 析 和 预测 为 主 的 技术 手段 ， 帮 助 企业 完成 决策 分 析 的 一 套 解 决 方案 。 
e。 商业 智能 的 实施 方法 : 
1) 项 目 规划 : 主要 包括 项 目前 期 的 准备 、 业 务 现状 的 调研 、 目 前 系统 的 现状 分 析 。 分 
析 内 容 包 括 业 务 需 求 的 定义 和 系统 实现 的 目标 ， 系 统 运行 环境 的 定义 ， 系 统 的 框架 结构 定 
义 ， 逻 辑 模型 的 设计 等 。 
2) 系统 设计 与 实现 : 主要 包括 系统 体系 结构 的 设计 ， 物理 数 据 库 的 设计 ， 数 据 抽取 、 
转换 和 加 载 的 实现 ， 前 端 应 用 的 开发 ， 元 数据 的 管理 等 内 容 。 
3) 系统 调 优 : 指 逻 辑 、 物 理 模 型 的 调整 ， 系 统 性 能 的 调 优 。 
4) 系统 运行 及 维护 : 指 编写 系统 运行 及 维护 手册 ， 以 及 用 户 操作 手册 、 培 训 教材 等 文档 。 
e。 商业 智能 的 实施 步 又: 
(1 ) 定义 需求 
需求 分 析 是 商业 智能 项 目 重要 的 一 步 ， 需 要 描述 项 目 背 景 与 目的 、 业 务 范 围 、 业 务 目 
标 、 业 务 需 求 和 功能 需求 等 内 容 ， 明 确 企业 对 商业 智能 的 期 望 和 需要 分 析 哪 些 主题 等 方面 。 
(2) 数据 仓库 模型 的 建设 
在 系统 设计 、 开 发 之 前 ， 业 务 人 员 和 设计 人 员 共 同 参 与 概念 模型 的 设计 ， 核 心 的 业务 概 
念 在 业务 人 员 和 设计 人 员 之 间 达 成 一 致 。 在 系统 设计 开发 时 ， 业 务 人 员 和 系统 设计 人 员 共 同 
参与 逻辑 模型 的 设计 。 最 后 设计 开发 人 员 以 逻辑 模型 为 基础 进行 物理 模型 的 设计 。 
(3) 数据 抽取 、 清 洗 、 转 换 、 加 载 
抽取 主要 负责 将 数据 仓库 需要 的 数据 从 各 个 业务 系统 中 抽取 出 来 。 如 果 每 个 业务 系统 的 
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数据 情况 各 不 相同 ， 可 能 对 每 个 数据 源 都 需要 建立 独立 的 抽取 流程 ， 每 个 流程 都 需要 使 用 接 
口 将 源 数据 传送 给 下 一 环 生 ， 即 清洗 与 转换 阶段 。 通 过 数据 抽取 程序 ， 可 以 从 业务 源 系 统 中 
不 断 地 将 数据 抽取 出 来 ， 抽 取 周 期 可 以 设 定 为 某 个 固定 时 间 。 

(4) 建立 商业 智能 分 析 报 表 

商业 智能 分 析 报 表 通 过 对 数据 仓库 的 数据 分 析 ， 使 企业 的 蜗 层 领导 可 以 多 角度 地 查看 企 
业 的 运营 情况 ， 并 且 按 照 不 同 的 方式 去 探查 企业 内 部 的 核心 数据 ， 从 而 更 好 地 帮助 企业 决策 
人 员 对 公司 未 来 经 营 状 况 进行 预测 和 判断 。 

e 商业 智能 项 目 成 功 的 关键 因 系 . 

1) 企业 融 级 领导 层 对 商业 智能 项 目的 支持 和 雄厚 的 资金 是 项 目 成 功 的 关键 因素 之 一 。 

2) 拥有 实力 雄厚 的 技术 团队 。 技 术 团 队 成 员 不 仅 精 通商 业 智 能 相关 技术 ， 同 时 也 丈 悉 
相关 的 业务 规则 和 开发 流程 。 

3) 商业 智能 项 目 团队 的 协同 合作 能 力 。 项 目的 管理 者 需要 保证 团队 中 每 个 成 员 分 工 明 
硝 ， 沟 通 及 时 ， 并 且 需 要 各 部 门 之 间 有 民 好 的 合作 能 力 。 总 之 ， 商 业 智 能 项 目的 实施 是 一 个 
长 期 的 不 断 完 善 的 过 程 。 

e 完整 的 商业 智能 系统 需要 以 下 儿 种 核心 的 技术 : 

(1) 数据 仓库 

(2) 数据 挖掘 和 分 析 

(3) ETL 处 理 技 术 

(4) 联机 分 析 处 理 (OLAP) 技术 

(5) 可 视 化 分 析 

(6) 大 数据 技术 

(7) 商业 智能 元 数据 管理 

e 数据 仓库 是 一 个 面 癌 主题 的 、 集 成 的 、 非 匈 失 的 、 反 映 历 史 变 化 的 、 随 春 时 间 的 流逝 
发 生变 化 的 数据 集合 ， 它 主要 用 来 支持 企业 管理 人 员 的 决策 分 析 。 

e 数据 集 市 就 是 满足 特定 的 部 门 或 者 用 户 的 需求 ， 按 照 多 维 的 方式 进行 存储 ， 包 括 定义 
维度 、 需 要 计算 的 指标 、 维 度 的 层次 等 ， 生 成 面 癌 决策 分 析 需 求 的 数据 立方 体 。 数 据 
仓库 体系 结构 中 增加 了 数据 集 市 ， 数 据 集 市 又 可 以 看 做 部 门 级 的 小 型 数据 仓库 。 

e ODS ( Operational Data Store ， 操 作 数 据 存 储 ) 是 一 个 面 回 主题 的 、 集 成 的 、 可 变 的 、 
反映 当前 细 市 的 数据 集合 。 它 主要 用 于 文 持 企业 处 理 业 务 应 用 和 存储 面 癌 主题 的 、 即 
时 性 的 集成 数据 ， 为 企业 决策 者 提供 当前 细节 性 的 数据 ， 通 常 作为 数据 仓库 的 过 渡 
阶段 。 

e ODS 的 设计 原则 包括 可 扩展 性 、 高 可 用 性 、 可 重用 性 和 高 性 能 。 

e ETL 是 数据 抽取 (Extract) 、 转 换 (Transform) 、 加 载 (Load) 的 英文 催 写 。 它 的 一 般 
过 程 是 指 : 首先 将 源 数据 抽取 出 来 ， 然 后 经 过 数据 的 清洗 、 转 换 ， 最 后 加 载 到 目标 表 
中 。ETL 过 程 一 般 都 是 批量 操作 的 。 

e 维度 : 是 指 人 们 观察 事物 的 角度 ， 如 地 区 维度 、 时 间 维 度 、 产 品 维度 等 。 

e 层次 : 根据 描述 维度 细 区 程度 的 不 同 ， 划 分 数据 在 逻辑 上 的 等 级 关系 ， 用 来 描述 维度 
的 各 个 方面 。 例 如 ， 时 间 维 度 包括 年 、 季 度 、 月 、 日 等 层次 ， 地 区 维度 包括 国家 、 
省 、 市 、 县 等 层次 。 
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。 维度 成 员 : 维度 的 取 值 ， 即 维度 中 的 各 个 数据 元 素 的 取 值 。 例 如 ， 地 区 维度 中 具体 的 
成 员 有 英国 、 法 国 、 德 国 。 

e 销 取 : 通过 变换 维度 的 层次 ， 改 变 粒 度 的 大 小 。 它 包括 癌 上 销 取 (Drill Up) 和 回 下 
钻 取 (Drill Down) 。 回 上 馈 取 是 将 细节 数据 同上 退 渊 到 最 高 层次 的 汇总 数据 。 回 下 锁 
取 是 将 最 高 层次 的 汇总 数据 深入 到 最 低层 次 的 细 市 数据 中 。 

。 旋转 : 通过 变换 维度 的 方 昭 ， 重 新 安排 维 的 位 置 ， 如 行列 互 换 。 

e 切片 和 切 块 : 在 一 个 或 者 多 个 维度 上 选取 固定 的 值 ， 分 析 其 他 维度 上 的 上 度量 数据 。 如 
果 其 他 维度 剩余 两 个 ， 则 是 切片 ， 如 果 是 3 个 ， 则 是 切 块 。 

e 度量 : 多 维 数据 的 取 值 ， 如 销售 额 、 利 润 。 

e ROLAP: 是 基于 关系 型 数据 库 的 OLAP， 即 以 关系 型 数据 库 为 基础 ， 对 多 维 数据 的 
存储 。 

。MOLAP: 是 基于 多 维 数据 库 的 OLAP， 其 中 切片 、 切 块 是 主要 技术 。 

。 HOLAP: 是 基于 关系 型 和 多 维 定 阵型 等 混合 型 的 OLAP 实现 。 

















第 8 合 商 业 智 能 架构 实践 


本 章 目标 

通过 前 几 章 的 学 习 ， 我 们 了 解 了 商业 智能 的 定义 、 商 业 智 能 的 功能 、 商 业 智 能 的 发 展 趋 
、 商 业 知 能 的 实施 方法 和 步 又 、 关 于 商业 智能 的 核心 技术 、 数 据 仓库 理论 、 数 据 仓 库 的 特 
、 数 据 集 市 理论 、ODS 理论 等 知识 。 

学 习 本 章 后 ， 谈 者 将 掌握 : 


了 霸 





。 商业 智能 以 构 原 则 

。 两 业 智能 架构 典型 应 用 

。 商业 智能 具有 的 功能 

。 商业 智能 未 来 的 发 展 趋 荔 和 方 回 
e 商业 智能 的 传统 架构 


。 传统 商业 智能 的 特点 

。 未 来 商业 智能 的 特 操 

。 旅游 行业 - 分 析 型 客户 关系 管理 的 商业 智能 体系 
e 分 析 型 客户 关系 管理 商业 智能 体系 架构 

e 实时 的 商业 智能 架构 

。 电信 行业 实时 商业 智能 架构 体系 





8.1 商业 智能 架构 概述 


8.1.1 商业 短 能 架构 原则 和 典型 应 用 


商业 智能 的 建设 是 一 个 战略 性 的 工程 ， 它 直接 影响 到 企业 未 来 的 发 展 方向 ， 对 于 商业 智 
能 的 架构 应 该 遵循 以 下 儿 项 原则 ， 如 图 8-1 所 示 。 
EE 实用 性 


a 
rf 可 信 性 


图 8-1 商业 智能 架构 原则 





前 脆性 § 








。 前 脆性 
商业 智能 应 该 建立 在 可 信 的 数据 基础 之 上 ， 完 成 商业 智能 的 建设 需要 投入 大 量 的 人 力 和 
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财力 ， 具 体 来 说 ， 在 开发 技术 和 手段 上 具有 先进 性 和 灵活 性 。 在 业务 上 ， 和 需要 满足 未 来 苑 争 
的 要 水 5 

。 实用 性 

建立 商业 智能 的 目的 是 服务 于 决策 过 程 ， 前 期 带 来 的 效益 可 以 促进 后 期 的 开发 ， 在 开发 
时 选择 工期 较 短 、 重 要 的 和 见效 快 的 部 门 作为 突破 口 ， 保 障 系统 的 实用 性 和 可 操作 性 。 

。 安全 性 

因为 商业 智能 可 能 会 涉及 机 蜜 数据 ， 所 以 必须 保证 其 安全 性 。 特 别 是 在 查询 系统 多 样 化 
的 情况 下 ， 商 业 智 能 必须 符合 安全 性 的 要 求 。 


。 可 信人 性 
商业 智能 作为 决策 支持 系统 ， 同 时 产生 大 量 的 报 

表 。 商 业 智能 系统 应 该 具有 可 信 性 ， 管理 me 所 
下 面 我 们 分 析 一 下 关于 商业 智能 的 典型 应 用 。 ND 
商业 智能 是 收集 、 管 理 和 分 析 数 据 ， 同 时 将 数据 转 

化 成 有 用 信息 的 过 程 ， 如 图 8-2 所 示 。 ee 





商业 智能 系统 从 企业 的 日 痢 数 据 中 开发 基于 事实 的 信息 ， 辅 助 企业 做 出 更 好 的 商业 决 
琐 ， 提 融 企 业 运 莹 效率 和 决 末 分 析 的 能 力 。 可 以 帮助 企业 完成 风险 分 析 、 欺 诈 监 测 、 财 务 分 
析 等 。 商 业 智 能 系统 是 一 个 决 宋 文 持 系统 ， 它 是 在 数据 仓库 的 基础 上 ， 利 用 各 种 挖掘 工具 获 
得 信息 和 知识 。 目 前 来 讽 ， 金 融 行 业 、 通 信行 业 、 制 造 行 业 、 和 零售 行 业 、 医 疗 行业 、 政 府 机 
构 等 已 经 逐步 开始 应 用 商业 智能 。 











制造 行业 


图 8-3 商业 智能 的 行业 应 用 


商业 智能 的 典型 应 用 包括 经 营 分 析 、 绩 效 管理 、 战 略 决策 支持 、 产 品 管理 和 创新 、 客 户 
关系 管理 和 风险 管理 等 ， 如 图 8-4 所 示 。 

(1) 经 营 分 析 

对 于 企业 的 经 营 分 析 可 以 包括 指标 分 析 和 财务 分 析 等 内 容 。 指 标 分 析 是 针对 业务 流程 相 
关 指 标的 分 析 。 例 如 ， 销 售 紊 、 利 润 率 和 库存 量 等 。 财 务 分 析 是 针对 财务 数据 中 的 费用 文 
出 、 利 润 等 指标 的 分 析 。 

(2) 绩效 管理 

企业 管理 人 员 利 用 商业 智能 工具 衡量 员工 的 工作 绩效 情况 。 
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产品 管理 和 创新 


绩效 管理 


客户 关系 管理 战略 决策 支持 


(3) 战略 决策 文 持 

通过 对 各 类 数据 的 高 度 概括 和 人 分析， 辅助 企 业 高 层 进行 战 略 决 策 。 

(4) 风险 管理 

利用 商业 智能 技术 ， 降 低 企 业 的 风险 。 例 如 ， 通 过 发 现 客户 的 异常 情况 ， 快 速 采取 措 
施 ， 提 高 企业 的 抗 风险 能 

(5) 客户 关系 管理 

利用 商业 智能 技术 ， 分 析 客 户 的 购买 习惯 和 喜好 ， 改 进 服务 和 产品 的 质量 ， 提 高 客户 的 
忠诚 度 。 

(6) 产品 管理 和 创新 

利用 商业 智能 技术 ， 通 过 对 历史 数据 的 分 析 ， 加 强 对 产品 的 改进 能 力 和 管理 能 力 ， 同 时 
提高 产品 的 创新 能 力 和 推广 能 


8.1.2 商业 智能 具有 的 功能 


商业 智能 产品 应 该 建立 在 稳定 的 平台 上 ， 它 可 以 提供 数据 关联 分 析 的 功能 、 数 据 监控 的 
功能 、 数 据 展示 功能 和 数据 输出 功能 ， 如 图 8-5 所 不 。 





图 8-5 商业 智能 具有 的 功能 


(1) 数据 关联 分 析 的 功能 
关联 分 析 用 于 发 现 事 物 之 间 的 关联 性 ， 当 一 个 事件 发 生 时 ， 为 一 个 事件 也 可 能 会 发 生 。 
目的 是 发 现 有 实用 价值 的 事件 。 例 如 ， 对 于 商业 银行 的 客户 ,分 析 可 能 进行 股票 多 易 和 债券 
221 








交易 的 概率 ， 扩 展 产 品 范 于 ， 吸 引 更 多 的 客户 。 
(2) 数据 监控 的 功能 
可 以 设置 条 件 ， 使 符合 条 件 的 数据 显示 出 来 ， 引 起 管理 人 员 的 注意 。 
(3) 数据 展示 功能 
将 结 琳 数 据 以 某 种 形式 展示 出 来 ， 以 支持 客户 的 数据 分 析 和 决策 。 
(4) 数据 输出 功能 
将 结果 数据 以 某 种 形式 输出 ， 以 支持 客户 的 数据 分 析 和 决策 。 


8.1.3 商业 智能 未 来 的 发 展 趋势 和 方 回 


传统 商业 智能 具有 以 下 几 个 特点 : 查询、 报表 、 多 维 分 析 和 统计 分 析 、 数 据 挖掘 ， 如 
图 8-6 所 示 。 

但 是 传统 的 商业 智能 具有 以 下 几 个 方面 的 局 限 性 : 

1) 传统 商业 智能 的 上 销 、 下 销 和 比较 功能 很 难 满 
足 一 些 特殊 用 户 的 分 析 需 求 。 

2) 传统 商业 智能 的 数据 准确 性 、 实 时 性 
大 的 考验 。 

3) 传统 商业 智能 很 难处 理 庞 大 的 数据 ， 只 有 通过 
大 数据 技术 才能 访问 和 使 用 海量 的 数据 ， 以 及 各 种 非 结 
构 化 数据 。 图 8-6 传统 商业 智能 的 特点 

从 根本 上 来 说 ， 传 统 商业 智能 更 侧重 历史 分 析 ， 而 未 来 商业 智能 更 专注 于 对 业务 流程 的 
整合 ， 以 实现 动态 分 析 和 实时 分 析 。 

举例 来 说 ， 传 统 商 业 知 能 更 加 擅长 于 对 历史 数据 的 同期 对 比 、 产 品 分 析 、 企 业 的 绩效 管 
理 和 统计 报表 分 析 等 内 容 ， 如 图 8-7 所 示 。 


产品 分 析 统计 报表 分 析 
同期 对 比 企业 的 绩效 管理 | 


A AAA 
PS 


图 8-7 传统 商业 智能 的 优势 





















对 于 未 来 商业 智能 来 说 ， 它 更 专注 于 对 企业 的 风险 管理 、 提 供 各 种 实时 报表 和 实时 服 
务 、 实 现实 时 或 者 准 实时 的 精准 营 销 、 完 成 对 业务 的 监控 功能 等 ， 如 网 8-8 所 示 。 

我 们 总 绪 一 下 商业 智能 的 发 展 趋势 : 

对 于 传统 型 的 商业 智能 ， 主 要 是 基于 历史 数据 做 出 决策 和 分 析 。 它 面 癌 企业 的 决 生 者 和 
分 析 者 ， 主 要 以 查询 为 主 。 

对 于 未 来 商业 智能 ， 主 要 是 基于 实时 的 数据 做 出 分 析 和 决策 。 它 可 以 面 问 一 线 的 客户 经 
理 和 决策 者 ， 通 过 实时 捕获 的 数据 ， 获 取 最 新 的 信息 和 知识 。 它 可 以 提高 商业 智能 对 业务 的 
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2 
精准 营销 Wy 


图 8-8 未 来 商业 智能 的 应 用 











即时 指导 作用 ， 同 时 快速 地 啊 应 事件 ， 提 升 企业 的 耽 争 力 。 一 般 来 说 ， 统 计 报 表 分 析 表 示 已 
经 发 生 了 什么 ，OLAP 分 析 和 即席 查询 代表 着 为 什么 发 生 ， 数 据 挖 气 会 预测 将 来 发 生 什么 ， 
而 未 来 商业 智能 将 要 解决 正在 发 生 什 么 ， 如 图 8-9 所 示 。 





图 8-9 未 来 商业 智能 的 作用 


未 来 商业 智能 的 方 癌 : 

1) 建立 实时 动态 数据 仓库 ， 一 般 来 说 ， 传 统 数 据 仓库 是 基于 历史 数据 进行 分 析 的 ， 实 
时 动态 数据 仓库 文 持 前 站 应用， 大 大 缩短 了 啊 应 时 间 。 

2) 文 持 大 数据 技术 ， 增 加 对 非 结 构 化 数据 的 处 理 。 

3) 用 户 已 经 不 再 满足 于 传统 的 数据 展现 ， 要 求 数据 进一步 可 视 化 。 

4) 对 于 预测 分 析 、 假 设 模拟 和 数据 挖掘 技术 的 应 用 将 会 越 来 越 广 泛 。 

5) 用 户 对 商业 智能 的 实时 性 需求 越 来 越 多 。 


8.1.4 商业 智能 的 传统 数据 架构 


商业 管 能 的 传统 染 构 类 似 于 传统 的 物流 过 程 ， 即 各 地 运 来 的 仙 物 首先 存放 在 暂 存 库 ， 主 
要 目的 是 对 各 类 仙 物 进行 清洗 、 往 选 、 检 查 、 巾 标签 等 工作 ， 然 后 统一 发 往 贷 仓 ， 最 后 在 各 
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个 超市 中 进行 集中 销售 ， 如 图 8-10 所 示 。 





图 8-10 商业 智能 的 传统 架构 类 似 于 传统 的 物流 过 程 








其 中 ， 采 园 、 服 妆 片 、 农 场 、 渔 场 关 似 于 各 个 业务 系统 ， 赁 物 暂 存 库 的 功能 与 ODS 系 
统 相 似 ， 质 仓 相 当 于 数据 仓库 系统 ， 而 超市 类 似 于 数据 集 市 系统 ， 如 图 8-11 所 示 。 


货物 暂 存 库 
而 而 * 


渔场 


中 | 歼 据 集 市 
Ee te 


图 8-11 商业 智能 的 传统 扫 构 与 传统 物流 过 程 的 映 冉 天 系 








数据 仓库 























随 着 商业 智能 使 用 越 来 越 广泛 ， 使 用 者 已 经 不 再 局 限于 业务 分 机 人 员 或 者 高 层 领导 ， 可 
以 通过 外 部 网 络 延伸 到 企业 的 客户 、 合 作 伙 伴 等 。 为 了 满足 这 些 用 户 的 需求 ， 商 业 智能 架构 
需要 满足 可 扩展 性 和 可 徘 性 ， 同 时 保证 快速 的 啊 应 能 

对 于 传统 的 商业 智能 体系 ， 底 层 是 软 便 件 平 台 、 安 全 管理 和 元 数据 管理 等 。 商 业 智能 的 
工作 流 和 数据 流 分 别 是 数据 源 、 数 据 整 合 、 数 据 处 理 、 分 析 和 应 用 。 综 上 所 示 ， 我 们 可 以 得 
到 商业 智能 的 传统 数据 架构 的 分 布 情况 ， 如 图 8-12 所 示 。 
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数据 源 数据 整合 数据 处 理 分 析 


| :| 





元 数据 管理 


安全 管理 


图 8-12 ”商业 智能 的 传统 数据 架构 的 分 布 


商业 智能 的 处 理 过 程 是 从 各 个 业务 系统 或 者 其 他 数据 源 中 抽取 有 用 的 数据 ， 然 后 对 采集 
的 数据 进行 清洗 、 转 换 和 加 载 ， 以 保证 入 仓 之 前 的 数据 是 完整 的 、 一 致 的 ， 经 过 重 构 之 后 ， 
将 数据 存储 到 数据 仓库 或 者 数据 集 市 中 。 数 据 仓 库 的 数据 反映 的 是 企业 的 整体 情况 ， 最 后 利 
用 数据 挖掘 工具 、OLAP 分 析 工 具 对 数据 进行 处 理 ， 完 成 数据 到 信息 和 知识 的 转变 。 

传统 商业 乔 能 数据 架构 中 的 数据 流转 如 图 8-13 所 示 。 





ee 查询 、 分 析 工 具 
数据 仓库 < 





清洗、 转换、 加 载 有 
= 

= 数据 挖掘 工具 
\ NW 


数据 集 市 





数据 集 市 


| a 
。 





图 8-13 传统 商业 智能 的 数据 流转 


对 于 数据 仓库 的 建设 ， 是 以 业务 系统 和 大 量 的 业务 数据 积累 为 基础 ， 然 后 将 这 些 数据 进 
行 整 理 和 归纳 ， 提 供给 决策 分 析 人 员 。 数 据 仓库 建设 是 一 个 工程 ， 主 要 包含 企业 内 部 信息 和 
外 部 信息 。 内 部 信息 包括 各 种 业务 处 理 数据 和 各 类 文档 数据 ， 外 部 信息 包括 各 类 市 场 信息 、 
各 种 手工 收集 的 信息 等 。 

数据 仓库 的 关键 是 数据 的 存储 和 管理 。 针 对 各 类 业务 数据 ， 进 行 抽取 、 清 理 和 集成 ， 近 
照 主 题 进 行 组 织 。 可 以 按照 多 维 模型 进行 组 织 ， 分 析 。 

其 中 前 端 工具 主要 包括 报表 工具 、 查 询 工 具 、 数 据 分 析 工 具 、 数 据 挫 气 工具 等 应 用 开发 
工具 ， 如 图 8-14 所 示 。 

传统 商业 智能 体系 和 未 来 实时 商业 智能 体系 的 区 别 如 图 8-15 所 示 。 
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图 8-14 ”前端 工 具 
未 来 实时 商业 智能 体系 
| |, 


实时 数据 ee 








图 8-15 传统 商业 智能 体系 和 未 来 实时 商业 智能 体系 的 区 别 
传统 商业 智能 体系 主要 是 对 历史 数据 的 分 析 。 数 据 仓库 作为 前 站 应 用 主要 的 数据 源 。 
未 来 实时 商业 智能 体系 主要 是 对 实时 数据 的 分 析 和 监控 数据 。 它 可 以 快速 捕获 变化 的 数 
据 。 数 据 仓库 作为 前 站 应 用 的 部 分 数据 源 。 











8.2 未 来 商业 智能 的 染 构 


8.2.1 旅游 行业 分 析 型 客户 关系 管理 的 商业 智能 体系 
目前 ， 旅 游行 业 遇 到 了 很 多 问题 和 挑战 ， 如 图 8-16 所 示 。 
(1) 市 场 范 争 不 断 加 剧 
在 许多 地 方 ， 旅 游行 业已 逐渐 发 展 成 国民 经 济 的 战略 性 支柱 产业 ， 导 致 竞争 异常 激烈 。 
(2) 部 分 业务 收入 开始 下 降 
因为 受到 多 重 因 系 的 影响 ， 旅 游行 业 中 的 部 分 子 行业 收入 开始 下 降 ， 传 统 的 粗放 型 俏销 
策略 已 经 不 能 适应 旅游 行业 的 末 来 发 展 。 
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市 场 竞争 不 断 加 剧 = 部 分 业务 收入 开始 下 降 






盲目 宣传 , 铅 乏 精准 化 营销 S38 所 志 对 旅游 产品 的 创新 


图 8-16 旅游 行业 目前 遇 到 了 很 多 问题 和 挑战 

(3) 育 目 宣传 ， 缺 乏 精准 化 侣 销 

很 多 旅游 公司 没有 真正 了 解 消费 者 的 需求 ,广告 宣传 缺乏 创意 ， 没 有 达到 真正 的 销售 拉动 
作用 ， 不 清楚 目标 群体 的 特征 、 喜 好 ， 不 能 及 时 地 将 信息 送 到 目标 人 和 群 中 ， 缺 乏 精 准 化 营销 。 

(4) 缺乏 对 旅游 产品 的 创新 

在 旅游 行业 中 ， 普 遍 存 在 的 问题 是 缺乏 对 旅游 产品 的 创新 ， 无 法 吸引 消费 者 。 

新 的 问题 和 挑战 ， 对 旅游 机 构 提 出 了 以 下 更 高 的 要 求 。 

1) 在 市 场 竞 和 争 不 断 加 剧 的 情况 下 ， 旅 游 机 构 应 该 建立 一 体 化 的 客户 营销 体系 ， 为 客户 
提供 个 性 化 服务 ， 细 分 目标 客户 ， 增 强 客户 满意 度 ， 提 高 营销 的 精准 度 。 

2) 部 分 业务 收入 开始 下 降 的 情况 下 ， 旅 游 机 构 应 该 采取 精细 化 的 客户 发 展 策略 ， 满 足 
客户 个 性 化 的 需求 ， 提 高 客户 的 忠诚 度 ， 让 旅客 有 不 同 的 体验 和 感受 ， 从 而 乐于 重复 消费 ， 
以 增加 行业 的 收入 。 

3) 对 于 旅游 机 构 的 彰 销 宣传 ， 需 要 结合 消费 者 对 产品 的 印象 、 喜 好 和 市 场 的 实际 情况 。 
同时 包括 对 目标 群体 的 需求 和 耽 争 对 手 情 况 的 掌握 ， 提 高 营销 策划 的 科学 化 程度 。 

4) 旅游 产品 项 目 需 要 不 断 拓 新 ， 增 加 与 消费 者 之 间 的 互动 ， 提 高 产品 的 精细 化 程度 。 
男 外 ， 可 以 不 断 进行 新 产品 设计 ， 提 供 个 性 化 产品 。 

面 对 问 题 、 挑 战 和 更 高 的 要 求 ， 基 于 挖掘 技术 ， 建 立 分 析 型 客户 关系 管理 的 商业 智能 体 
系 ， 以 解决 精准 营销 和 产品 的 创新 间 题 ， 某 旅游 机 构 的 建设 流程 如 图 8-17 所 示 。 





























-4 
oe 
AS 
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在 一 期 系统 的 基础 上 建立 数据 标准 体 
系 ， 实 现 对 客户 信息 的 整合 ， 同 时 对 
数据 进行 挖 据 ， 建 立 分 析 型 的 客户 关 








一 期 商业 智能 系统 实现 了 客户 基础 信息 、 交 易 记 录 等 信 
息 的 集成 ， 但 是 没有 实现 对 信息 的 挖掘 ， 很 难 体现 价值 





图 8-17 商业 智能 体系 解决 精准 营销 和 产品 的 创新 问题 
1) 一 期 商业 智能 系统 实现 了 客户 基础 信息 、 交 易 记 录 等 信息 的 集成 ， 但 是 没有 实现 对 
言 县 的 挫 据 ， 很 难 体 现价 值 。 
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2) 在 一 期 系统 的 基础 上 建立 数据 标准 体系 ， 实 现 对 客户 信息 的 整合 ， 同 时 对 数据 进行 
挖掘 ， 建 立 分 析 型 的 客户 关系 管理 系统 。 

3) 最 后 ， 在 此 基础 上 ， 增 加 客户 体验 和 推送 成 功率 ， 由 被 动 营 销 改 为 主动 营销 ， 对 客 
户 信息 进 行 评 信和 与 深入 挖 气 ， 主 动向 客户 推送 一 些 旅游 产品 ， 从 而 实现 对 客户 的 精准 营销 。 

分 析 型 客户 关系 管理 商业 智能 数据 染 构 如 图 8-18 所 示 。 
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图 8-18 分 析 型 客户 关系 管理 商业 智能 数据 架构 





其 中 分 析 型 客户 关系 管理 系统 的 数据 流转 如 图 8-19 所 示 。 


营销 信息 层 分 析 企 划 层 管理 实施 层 







流失 预警 模型 


客户 行为 细 分 模型 
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| 4 
交叉 销售 模型 营销 方案 策划 


更 多 模型 


CRM 系统 






数据 挖掘 模型 


加 





行为 数据 





图 8-19 分析 型 客户 关系 管理 系统 的 数据 流转 
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8.2.2 电信 行业 实时 商业 智能 架构 体系 
电信 行业 实时 商业 智能 应 用 架构 如 网 8-20 所 示 。 





监控 数据 查询 多 维 分 析 
话费 财务 报表 

”统一 客 户 视图 查询 “前 客户 分析 

服务 监控 ”| 上 产品 太公 销售 去 


用 户 欺 诈 监 控 


竞争 分 析 

高 额 话费 预警 

产品 与 套餐 分 析 

增值 业务 营销 分 析 
人 力 分 析 


财务 分 析 








。 监控 
监控 包括 用 户 欺 诈 监控 、 服 务 监控 、 高 额 话 费 预 警 等 内 容 。 
。 数 据 查 询 


数据 查询 包括 话费 财务 报表 、 统 一 客户 视图 查询 、 产 品 侄 抱 销售 报表 等 内 容 。 
e 多 维 分 析 
多 维 分 析 包 括 客 户 分 析 、 欧 争 分 析 、 产 品 与 套餐 分 析 、 增 值 业务 营销 分 析 、 人 力 分 析 、 
财务 分 析 等 。 
电信 行业 实时 商业 智能 数据 架构 如 网 8-21 所 示 。 
决策 实施 








图 8-21 电信 行业 实时 商业 智能 数据 架构 
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这 种 实时 的 商业 智能 架构 的 目的 是 在 合适 的 时 机 ， 通 过 合适 的 渠道 ， 辐 客户 推送 合适 的 
产品 和 服务 。 这 也 要 求 我 们 从 以 “产品 为 中 心 ” 加 以 “客户 为 中 心 ”转变 。 

我 们 可 以 分 析 客 户 的 特征 ， 规 划 其 产品 ， 选 择 客 户 玛 爱 的 襄 销 渠道 ， 在 适当 的 时 候 对 客 
户 进行 推荐 。 

实时 的 商业 智能 的 具体 流程 如 图 8-22 所 示 。 


捕捉 和 监测 | 办 | 联系 客户 


图 8-22 实时 的 商业 智能 的 具体 流程 








通过 实时 获知 客户 的 变化 ， 捕 捉 客 户 的 需求 和 购买 产品 的 概率 ， 最 后 形成 完整 的 营销 方 
案 。 例 如 ， 通 过 数据 仓库 中 的 客户 行为 信息 的 自动 检测 ， 我 们 主动 联系 客户 ， 获 取 真 实 的 客 
户 需 求 ， 最 后 制定 完整 的 营销 方案 ， 形 成 一 个 事件 式 营销 流程 。 

电信 行业 传统 的 膏 销 方式 和 事件 式 营 销 方 式 的 区 别 如 图 8-23 所 示 。 








传统 膏 销 事件 式 营 销 


分 析 客 户 行 为 
变化 





针对 客户 销售 针对 客户 销售 
一 种 产品 多 种 产品 





图 8-23 ”传统 的 营销 方式 和 事件 式 营 销 方式 的 区 别 
1) 传统 的 营销 有 以 下 几 种 方式 : 销售 产品 、 识 别 可 能 购 闫 产品 的 客户 和 和 针对 客户 销售 
一 种 产品 。 
2) 事件 式 癌 销 有 以 下 几 种 方式 : 分 析 客 户 行为 变化 、 识 别 符合 购买 条 件 的 客户 和 和 针 对 
客户 销售 多 种 产品 。 








小 结 








。 商业 智能 的 建设 是 一 个 战略 性 的 工程 ， 它 直接 影响 到 企业 未 来 的 发 展 方向 ， 对 于 商业 
镶 能 的 架构 应 该 加 循 以 下 几 项 原则 : 前 瞻 性 、 实 用 性 、 安 全 性 和 可 信和 性 。 
。 商业 智能 系统 从 企业 的 日 第 数据 中 开发 基于 事实 的 信息 ， 辅 助 企业 做 出 更 好 的 商业 决 
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策 ， 提 高 企业 运 疹 效率 和 决策 分 析 的 能 力 。 可 以 带 助 企 业 完成 风险 分 析 、 坎 诈 监 测 、 
财务 分 析 等 。 

。 商业 智能 的 典型 应 用 包括 : 经 彰 分 机、 绩效 管理 、 战 略 决 条文 择 、 产 品 管理 和 创新 、 
客户 关系 管理 和 风险 管理 等 。 

e。 商业 智能 产品 应 该 建立 在 稳定 的 平台 上 ， 它 可 以 提供 数据 关联 分 析 的 功能 、 数 据 监控 
的 功能 、 数 据 展示 功能 和 数据 输出 功能 。 

。 传统 商业 智能 具有 以 下 几 个 特点 : 查询 、 报 表 、 多 维 分 析 和 统计 分 析 、 效 据 挖掘 等 。 

。 传统 型 的 商业 智能 主要 是 基于 历史 数据 做 出 决策 和 分 析 。 它 面 问 企业 的 决策 者 和 分 析 
者 ， 主 要 以 碍 询 为 主 。 未 来 商业 智能 主要 是 基于 实时 的 数据 做 出 分 析 和 决策 ， 它 可 以 
面 丫 一 线 的 客户 经 理 和 决 打者 ， 通 过 实时 捕获 的 数据 ， 获 取 最 新 的 信息 和 知识 。 它 可 
以 提高 商业 智能 对 业务 的 即时 指导 作用 ， 同 时 快速 地 啊 应 事件 ， 提 升 企业 的 竞争 力 。 

e。 商业 乔 能 的 传统 染 构 类 似 于 传统 的 物流 过 程 ， 即 各 地 运 来 的 作物 首先 存放 在 暂 存 库 ， 
主要 目的 是 对 各 类 任 物 进行 清洗 、 滑 选 、 检 查 、 贴 标签 等 工作 ， 然 后 统一 发 往 侍 仓 ， 
最 后 在 各 个 超市 中 进行 集中 销售 。 

。 随 春 商业 智能 使 用 越 来 越 广泛 ， 使 用 者 已 经 不 再 局 限于 业务 分 机 人 员 或 者 高 层 领导 ， 
可 以 通过 外 部 网 络 延 伸 到 企业 的 客户 、 合 作 伙伴 等 。 为 了 满足 这 些 用 户 的 需求 ， 商 业 
贸 能 架构 需要 满足 可 扩展 性 和 可 菲 性 ， 同 时 保证 快速 的 啊 应 能 

e 电信 行业 实时 商业 智能 架构 如 下 所 示 : 

(1) 监控 

监控 包括 用 户 坎 诈 监 控 、 服 务 监 控 、 高 额 话费 预警 等 内 容 。 

(2) 数据 查询 

数据 查询 包括 话费 财务 报表 、 统 一 客户 视图 查询 、 产 品 侄 抱 销售 报表 等 内 容 。 

(3) 多 维 分 析 

多 维 分 析 包 括 客 户 分 析 、 殉 争 分 析 、 产 品 与 套餐 分 析 、 增 值 业务 营销 分 析 、 人 力 分 析 、 

财务 分 析 等 。 

e 这 种 实时 的 商业 智能 恕 构 的 目的 是 在 合适 的 时 机 ， 通 过 合适 的 渠道 ， 回 客户 推送 合适 
的 产品 和 服务 。 这 也 要 求 我 们 从 以 “产品 为 中 心 ” 向 以 “客户 为 中 心 ”转变 。 

。 传统 的 营销 方式 和 事件 式 彰 销 方式 的 区 别 : 

1) 传统 的 营销 有 以 下 几 种 方式 : 销售 产品 、 识 别 可 能 购买 产品 的 客户 和 针对 客户 销售 

= i 

2) 事件 式 癌 销 有 以 下 几 种 方式 : 分 析 客 户 行为 变化 、 识 别 符合 购买 条 件 的 客户 和 和 针 对 

客户 销售 多 种 产品 。 
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第 9 重 商业 往 能 一 数据 仓库 染 构 和 条 例 


本 章 目 标 

通过 前 几 章 的 学 习 ， 我 们 了 解 了 商业 条 能 的 定义 、 商 业 智 能 的 功能 、 商 业 智能 的 发 展 趋势 、 
商业 智能 的 实施 方法 和 步 又 、 关 于 商业 智能 的 核心 技术 、 数 据 仓库 理论 、 数 据 仓库 的 特点 、 数 据 
集 市 理论 、ODS 理论 等 知识 。 同 时 也 和 区 握 了 商业 智能 录 构 原则 和 相关 典型 应 用 ， 商 业 智 能 具有 的 
功能 ， 商 业 乔 能 未 来 的 发 展 趋 执 和 方向 ， 商 业 管 能 的 传统 染 构 ， 示 来 商业 稼 能 的 架构 等 内 容 。 

学 习 本 章 后 ， 访 者 将 等 握 : 

® 数据 仓库 的 定义 

® 效 据 仓库 产生 的 育 景 和 原因 

。 数据 仓库 的 特征 

® 数据 仓库 和 商业 稍 能 之 间 的 关系 

® 数据 仓库 的 优势 

e 数据 仓库 面临 的 挑战 

e 数据 仓库 的 扩 术 特性 

e。 数据 仓库 建设 方法 

® 数据 仓库 设计 原则 

® 数据 仓库 架构 规划 

® 数据 仓库 数据 模型 

。 数据 仓库 建设 路 线 图 

e 效 据 仓库 系统 的 灾难 备份 规划 

。 商业 银行 数据 仓库 面临 概 次 和 瓶 祯 

。 商业 银行 数据 仓库 建设 及 改进 建议 

。 商业 银行 数据 仓库 建设 案例 分 析 

。 商业 银行 数据 仓库 建设 启示 

。 电力 行业 数据 仓库 建设 难 操 

。 电力 行业 数据 仓库 体系 架构 

。 电力 行业 数据 仓库 能 力 蓝 图 

e 效 据 仓库 对 电力 业务 发 展 的 促进 作用 

。 数据 仓库 建设 策略 比较 

e 电力 行业 数据 仓库 的 数据 架构 设计 


9.1 数据 仓库 概述 








9.1.1 数据 仓库 的 定义 
数据 仓库 在 比尔 : 恩 门 所 著 的 《如 何 构 建 数据 仓库 》 一 书 中 的 定义 :“ 数 据 仓 库 是 一 个 
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面 回 主题 的 〈Subject Oriented) 、 集 成 的 (Integrated) 、 相 对 稳定 的 (Non -= Volatile) 、 反 映 
历史 变化 (Time Variant) 的 数据 集合 ， 主 要 用 于 文 持 决策 分 析 ”。 该 定义 被 广泛 接受 。 换 名 
话说 ， 数 据 仓库 是 为 企业 的 决策 分 析 提 供 文 持 的 所 有 类 型 的 数据 的 集合 。 

1. 如何 理解 数据 仓库 

数据 仓库 是 一 个 过 程 ， 而 不 是 一 个 产品 。 数 据 仓 库 的 整个 过 程 包括 很 多 产品 和 实施 服 
务 。 例 如 ， 数 据 仓库 包 含 一 些 平 台 产 品 、 数 据 处 理工 具 和 前 端 应 用 工具 。 对 于 平台 产品 来 
说 ， 包 括 数据 库 、 服 务 器 和 存储 设备 。 数 据 人 处 理工 具 主 要 是 ETL 工具 和 一 些 数据 管理 工具 。 
对 于 前 问 应 用 工具 来 说 ,包括 OLAP 工具 、 数 据 挖掘 工 具 、 报 表 展 现 工 具 和 门户 等 。 

2. 企业 级 数据 仓库 的 数据 架构 

企业 级 数据 仓库 的 数据 染 构 如 图 9-1 所 示 。 


知识 发 现 
数据 挖 据 。 查询 报表 展示 多 维 分 析 























库 外 数据 集 市 





图 9-1 企业 级 数据 仓库 的 数据 框架 


3. 数据 仓库 系统 建设 应 该 考虑 的 问题 

1) 首先 选择 数据 仓库 系统 的 成 功 案 例 作 为 重要 参考 。 

2) 等 习 行 业内 的 先进 经 验 。 

3) 具备 专业 的 数据 仓库 实施 队伍 和 业务 领域 的 专家 。 

4) 考虑 数据 仓库 是 否 满足 海量 数据 的 复 匠 、 并 发 查询 。 

5) 数据 仓库 应 该 满足 可 扩展 的 能 

6) 数据 仓库 应 该 考虑 高 可 徘 性 ， 并 且 满 足 高 质量 的 要 求 。 

4. 商业 银行 数据 仓库 的 应 用 及 需要 考虑 的 主要 因 系 

商业 银行 数据 仓库 有 很 多 具体 应 用 ， 如 财务 管理 、 绩 效 管理 、 风 险 管理 、 资 产 负债 管理 
和 客户 管理 ， 如 图 9-2 所 未 。 

数据 仓库 规划 时 需要 考虑 的 主要 因 系 包括 业务 需求 、 扩 术 、 投 资 成 本 、 系 统 的 适用 对 
象 等 。 
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财务 管理 ”绩效 管理 风险 管理 | 客户 管理 








财务 、 合 约 、 地 
域 、 产 品 、 事 件 、 





图 9-2 商业 银行 数据 仓库 具体 应 用 


e 业务 需求 

业务 需求 是 指 随 着 市 场 的 开发 ， 客 户 的 需求 有 哪些 转变 ， 业 务 的 发 展 重点 是 什么 。 要 理 
解 建设 数据 仓库 不 是 目的 ， 而 是 一 种 手段 。 

e 技术 

技术 方面 要 考虑 业务 系统 的 历史 数据 量 和 用 户 数 是 多 少 。 

e 投资 成 本 

投资 成 本 包括 购买 数据 仓库 产品 的 成 本 、 使 用 成 本 、 维 护 成 本 和 管理 运行 成 本 。 

e 系统 的 适用 对 象 

系统 的 适用 对 象 包括 管理 决策 层 或 者 业务 部 门 。 

5. 数据 仓库 的 建设 目标 

数据 仓库 建设 目标 是 将 数据 转化 成 信息 、 知 识 ， 最 后 辅助 企业 高 层 进 行 决策 分 析 。 其 中 
数据 是 原始 业务 数据 的 记录 。 信 息 表示 整合 的 数据 提供 特定 的 信息 。 信 息 间 的 逻辑 关系 成 为 
知识 。 决 策 是 基于 对 知识 的 掌握 采取 相应 的 行动 。 

6. 数据 仓库 项 目 失 败 的 标志 

数据 仓库 项 目 失败 的 标志 有 以 下 几 种 ， 如 图 9-3 所 示 。 

1) 数据 仓库 项 目 周 期 延长 ， 费 用 严重 超支 。 

2) 日 党 工作 不 依赖 于 数据 仓库 。 

3) 业务 人 员 对 数据 仓库 中 的 数据 质量 不 信任 。 














日 常 工作 不 依赖 于 
数据 仓库 


业务 人 员 对 数据 仓库 
上 ”中 的 数据 质量 不 信人 








图 9-3 数据 仓库 项 目 失 败 的 标志 
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7. 数据 仓库 普遍 存在 的 问题 
数据 仓库 普遍 存在 的 问题 包括 数据 仓库 平台 问题 、 数 据 仓 库 质 量 问题 和 数据 仓库 应 用 问 
题 ， 如 图 9-4 所 示 。 


中 ye 人 它 的 高 可 用 性 、 扩 展 性 和 稳定 性 
平台 扯 是 相 





FT 数据 仓库 的 质量 问题 一 直 是 难点 


号 数据 仓库 应 用 问题 对 于 数据 仓库 的 应 用 来 说 , 它 的 决策 分 析 能 力 是 相当 重要 的 





图 9-4 数据 仓库 普遍 存在 的 问题 
8. 数据 仓库 项 目 逢 要 考虑 的 因素 
数据 仓库 项 目 需 要 考虑 很 多 因素 ， 例 如 ， 系统 应 该 实现 的 目标 、 项 目 实施 的 条 件 、 系 统 
现状 和 技术 平台 应 该 拥有 的 能 
对 于 应 用 规划 的 目标 来 说 ， 数据 仓库 应 必 该 满足 企业 管理 层 的 决策 分 析 需 求 ， 提 高 客户 的 
满意 度 。 项 目 实施 的 条 件 包 括 : 数据 仓库 项 目 实施 的 成 功 经 验 ， 具 有 数据 仓库 实施 的 一 般 方 
法 论 ， 同 时 具备 团队 建设 和 管理 的 能 
































对 于 系统 现状 的 调研 来 说 ， 应 该 调研 数据 源 的 质量 问题 、 业 务 系统 的 运行 状况 和 各 个 部 
门 对 于 数据 仓库 系统 的 理解 程度 。 对 于 数据 
仓库 技术 平台 的 要 求 包括 具有 海量 数据 处 
理 能 力 ， 数 据 分 区 的 能 力 ， 同 时 具备 一 定 的 

对 于 数据 仓库 的 建设 过 程 来 说 ， 首 先 应 I 
该 实现 对 业务 的 分 析 ， 帮 助 高 层 领导 加 深 对 
业务 运营 状况 的 了 解 ， 提 高 企业 的 市 场 竞争 | | 

能 力 ， 然 后 将 分 析 结 果 反 人 馈 到 业务 系统 中 ， a bb 
的 价值 ， 如 图 9-5 所 示 。 
9.1.2 数据 仓库 产生 的 背景 和 原因 
1. 数据 仓库 产生 的 背景 
随 着 信息 量 的 不 断 增 大 ， 企 业 需 要 把 这 些 数据 当 作 一 种 资产 ， 通 过 多 个 角度 去 分 析 这 些 


技术 先进 性 。 
9. 对 数据 仓库 有 效 的 使 用 方式 

实现 分 析 应 用 和 业务 应 用 的 交互 闭环 过 程 ， 

加 强 对 业务 运 疹 的 指导 ， 为 企业 市 来 可 持续 图 9-5 对 数据 仓库 有 效 的 使 用 方式 

海量 数据 ， 并 从 中 获取 有 用 的 信息 和 知识 。 因 为 事务 处 理 操作 型 的 数据 库 很 难 满足 这 种 需 

求 ， 所 以 数据 仓库 技术 应 运 而 生 。 
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数据 仓库 是 面 回 主题 的 、 集 成 的 、 稳 定 的 ， 并 且 反 映 历 史 变 化 的 ， 数 据 仓库 在 保证 数据 
存储 的 基础 上 ， 挖 气 信 息 ， 使 数据 变 得 更 有 价值 。 

2. 数据 仓库 产生 的 原因 

数据 仓库 的 出 现 和 发 展 是 计算 机 应 用 到 一 定 阶 段 的 产物 ， 很 多 企业 经 过 多 年 的 数据 积 
办 ,保存 了 大 量 的 原始 数据 和 各 种 业务 数据 ， 这 些 数据 真实 地 反映 了 企业 的 经 济 情 况 。 但 是 
因为 缺乏 对 数据 的 有 效 管理 ， 所 以 无 法 体现 这 些 数据 对 企业 的 价值 。 

在 20 世纪 70 年 代 ， 出 现 了 关系 型 的 数据 库 技术 ， 为 这 一 类 问题 提供 了 解决 方案 。 

在 20 世纪 80 年 代 中 期 ， 很 多 用 户 已 经 不 能 满足 数据 库 技术 处 理事 务 数据 的 需求 ， 而 是 
更 希望 满足 决策 分 析 的 需要 。 

随 着 决策 分 析 的 需求 慢 慢 深入 人 心 ， 在 20 世纪 80 年 代 末 和 20 世纪 90 年 代 初 ， 终 于 出 
现 了 数据 仓库 的 概念 ， 它 为 决策 支持 打下 了 基础 。 数 据 仓库 经 历 了 一 段 时 间 的 发 展 ， 加 之 经 
过 多 年 的 市 场 和 运营 积累 ， 企 业 也 已 经 坐 拥 了 大 量 的 业务 数据 ， 这 些 数据 为 数据 仓库 技术 的 
后 续 发 展 打 下 了 重要 的 基础 。 

20 世纪 90 年 代 初 期 ， 比 尔 : 恩 门 在 《如 何 构建 数据 仓库 》 中 提出 了 “数据 仓库 ”的 
概念 ， 几 年 后 ， 数 据 仓库 的 研究 和 应 用 得 到 了 广泛 关注 。 


9.1.3 数据 仓库 的 特征 


数据 仓库 有 以 下 几 个 特征 : 面 回 主题 的 、 集 成 的 、 相 对 稳定 的 和 反映 历史 变化 ， 如 
图 9-6 所 示 。 




















。 面向 主题 的 





EE 


e 反映 历史 变化 









e 相对 稳定 的 


图 9-6 数据 仓库 的 特征 


1. 数据 仓库 是 面向 主题 的 

数据 仓库 是 面向 主题 进行 组 织 的 。 什 么 是 主题 ” 主题 是 对 业务 数据 的 一 种 抽象 ， 是 从 较 
局 层次 上 对 信息 系统 中 的 数据 进行 归纳 和 整理 。 面 向 主题 的 数据 组 织 方式 ， 束 是 在 较 局 层次 
上 对 分 析 对 象 的 描述 ， 所 谓 面 加 主题 的 特性 是 根据 业务 的 不 同 而 进行 的 内 容 划分 。 

2. 数据 仓库 是 集成 的 

数据 仓库 中 的 数据 是 按照 主题 存储 的 ， 与 业务 系统 中 的 数据 可 能 会 存在 较 大 差别 ， 数 据 
仓库 中 的 数据 来 源 于 不 同 的 业务 系统 ， 因 此 ， 在 进入 到 数据 仓库 之 前 ， 需 要 经 历 一 个 整合 、 
清洗 的 过 程 ， 你 证 数据 的 一 任性 ， 同 时 进行 数据 的 集成 、 计 算 和 汇总 。 

集成 的 特性 表现 在 : 数据 是 独立 分 散 的 ， 如 核心 业务 系统 、 电 子 渠 道 系 统 、 信 贷 系 统 、 
票据 系统 ， 每 个 系统 只 保留 单独 的 数据 ， 如 条 进行 公共 的 汇总 ， 那 么 必须 纳入 到 一 个 统一 的 
230 














平台 进行 分 析 、 挖 据 。 这 是 数据 仓库 产生 的 根本 动因 ， 数 据 仓 库 也 可 以 做 一 个 公共 标准 ， 例 
如 有 的 系统 用 0 和 1 分别 代表 男 和 女 ， 有 的 用 m 和 ff 代表 ， 需 要 有 一 个 统一 的 标准 。 

3. 数据 仓库 是 相对 稳定 的 

数据 仓库 通 第 保存 数据 不 同 历史 时 期 的 各 种 状态 ， 并 不 对 数据 进行 任何 更 新 操作 ， 一 般 
来 说 ， 数 据 仓库 的 数据 主要 是 做 查询 ， 以 供 企业 决策 分 析 之 用 。 数 据 仓 库 中 的 数据 反映 的 是 
很 长 时 间 内 的 历史 数据 ， 可 以 看 作 不 同时 点 的 数据 库 快 照 的 集合 。 并 且 在 这 些 快照 的 基础 上 
进行 统计 分 析 。 当 操作 型 数据 库 经 过 联机 处 理 后 ， 将 数据 集成 并 且 输 入 到 数据 仓库 中 。 而 数 
据 仓 库 将 这 些 历史 数据 保存 起 来 ， 如 末 超 出 存储 期 限 ， 这 些 数 据 可 能 会 进行 归档 处 理 ， 或 者 
进行 删除 操作 。 

因为 数据 仓库 只 进行 数据 查询 的 操作 ， 并 且 查 询 量 相对 很 大 ， 对 数据 查询 的 效率 提出 了 
更 好 的 要 求 。 例 如 ， 可 以 利用 索引 、 分 区 等 技术 对 数据 仓库 进行 优化 。 数 据 仓 库 的 数据 一 般 
不 进行 删除 ， 但 是 超过 10 年 的 数据 都 放 入 到 归档 库 中 。 有 些 银行 单独 建设 0DS， 不 仅 给 数 
据 仓 库 供 数 ， 而 且 也 为 其 他 应 用 供 数 。 有 些 银行 是 将 ODS 放 在 数据 仓库 中 建设 。 

数据 可 以 分 成 两 类 ， 即 交易 类 的 和 状态 类 的 。 交 易 类 的 ， 每 天 痢 在 增加 ， 如 还 球 记 录 。 
男 一 部 分 ， 是 状态 类 的 ， 如 合同 余额 、 借 据 余 额 。 可 以 基于 拉链 或 者 快照 的 方式 放 入 到 数据 
仓库 中 。 数 据 仓库 尽量 不 做 频 蚂 修改 。 

4. 数据 仓库 是 反映 历史 变化 的 

数据 仓库 的 历史 特性 是 指数 据 保留 时 间 戳 字段， 记录 每 个 数据 在 不 同时 间 点 内 的 各 种 状 
。 数 据 仓库 反映 历史 变化 的 特性 表现 在 以 下 几 个 方面 : 

1) 数据 仓库 不 断 地 捕捉 业务 系统 中 已 经 变化 的 数据 ， 然 后 将 这 些 数据 妃 加 到 数据 仓库 
中 ， 将 不 断 生 成 的 业务 快照 经 过 统一 集成 后 进入 到 数据 仓库 中 ， 对 于 捕捉 到 的 新 的 变化 数据 
只 进行 新 增 操作 ， 而 不 进行 更 新 操作 。 

2) 一 般 来 说 ， 数 据 仓库 的 数据 会 有 存储 期 限 ,一 旦 超出 了 期 限 ， 过 期 数据 束 会 被 归 
档 ， 或 者 直接 删 除 。 


9.1.4 数据 仓库 和 商业 智能 乙 间 的 关系 
从 图 9-7 中 可 以 看 出 ， 数 据 仓库 是 实现 商业 智能 的 基础 平台 ， 没 有 数据 仓库 的 搭建 ， 


真正 的 商业 智能 是 无 法 实现 的 。 
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图 9-7 数据 仓库 和 商业 智能 之 间 的 关系 
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9.1.5 数据 仓库 的 优势 及 面临 的 挑战 


1. 数据 仓库 的 优势 

数据 仓库 系统 相 比 其 他 系统 有 哪些 优势 呢 ?” 有 以 下 几 种 . 

1) 数据 仓库 系统 可 以 获取 生产 系统 综合 的 信息 ， 作 为 科学 决策 分 析 的 重要 依据 。 

2) 数据 仓库 可 以 从 安 观 的 角度 理解 信息 ， 也 可 以 从 微观 的 角度 探查 信息 。 

3) 通过 数据 仓库 系统 ， 可 以 建立 企业 内 部 各 个 部 门 之 间 的 联系 。 

2. 数据 仓库 面临 的 挑战 

全 球 经 济 的 起 伏 ， 行 业 苋 争 的 日 益 激 烈 ， 数 据 信 息 的 迅速 增长 ,都 要 求 今天 的 企业 具备 
访问 、 整 合 各 种 数据 的 能 力 ， 并 通过 数据 分 析 玫 助 企业 管理 层 做 出 更 快 、 更 好 的 商业 决策 。 

一 方面 很 多 企业 拥有 多 个 系统 ， 这 可 能 导致 各 个 系统 之 间 数 据 互 相 冲 突 ， 从 而 使 管理 人 
员 无 法 及 时 、 有 效 地 获得 准确 的 信息 。 此 外 ， 企 业 大 多 数 的 分 析 解 决 方案 都 是 与 数据 仓库 分 
离 的 ， 增 加 了 系统 的 维护 成 本 和 运营 负载 。 为 一 方面 ， 信 息 的 快速 增长 使 数据 仓库 规模 扩展 
到 一 个 新 的 层次 ， 同 时 还 产生 了 更 加 复杂 的 数据 关系， 对 海量 数据 的 查询 、 挖 据 与 分 析 变 得 
更 加 复杂 ， 从 而 导致 系统 性 能 降低 ， 这 对 决策 分 析 的 及 时 性 和 灵活 性 产生 重大 影响 。 

传统 数据 仓库 所 市 来 的 挑战 ， 使 企业 管理 层 无 法 获得 及 时 、 准 确 、 有 效 的 业务 信息 ， 这 
会 对 企业 的 运 彰 和 竞争 力 市 来 影响 ， 原 因 如 下 所 未 : 

1) 缺乏 有 效 的 目标 市 场 定 位 ， 难 以 推出 有 针对 性 的 产品 。 

2) 不 能 够 根据 个 性 化 的 服务 需求 ， 制 定 出 对 应 的 俏销 集 略 。 

3 ) 不 能 及 时 了 解 客 己 的 真实 需求 和 特征 ， 无 法 提高 客户 的 忠诚 度 。 

因此 ， 企 业 需 要 一 种 全 面 、 多 功能 的 数据 仓库 平台 ， 它 不 仅 提 供 唯一 事实 的 版 本 ， 更 需 
要 实时 洞察 的 功能 。 


9.1.6 数据 仓库 的 技术 特性 


数据 仓库 的 技术 特性 主要 包括 海量 数据 处 理 能 力 、 高 可 用 性 、 线 性 的 扩展 能 力 和 数据 压 
缩 能 力 ， 如 网 9-8 所 示 。 
































。 海 量 数据 处 理 能 。 高 可 用 性 






数据 仓库 的 技术 特性 







。 线 性 的 扩展 能 。 数据 压缩 能 力 _ 





图 9-8 数据 仓库 的 技术 特性 


(1) 海量 数据 处 理 能 
数据 仓库 汇集 了 系统 的 全 部 数据 ， 数 据 量 不 断 增 长 ， 这 束 需 要 数据 仓库 平台 能 够 处 理 蜗 
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并 发 和 大 数据 的 能 

(2) 高 可 用 性 

数据 仓库 平台 需要 提供 高 可 用 方案 , 满足 系统 的 高 可 用 性 需求 。 

(3) 线性 的 扩展 能 

随 痢 用 户 需 求 的 多 样 化 ， 数 据 仓 库 平台 不 仪 能 够 满足 现 有 的 处 理 需 求 ， 而 且 可 以 提供 良 
好 的 扩展 能 力 ， 以 满足 不 断 增 长 的 数据 量 和 复杂 的 查询 需求 。 

(4) 数据 压缩 能 

数据 仓库 平台 应 该 提供 良好 的 数据 压缩 能 力 ， 降 低 成 本 ， 满 足 系 统 恢复 的 时 间 要 求 。 














9.2 数据 仓库 设计 


9.2.1 数据 仓库 建设 方法 


1. 数据 仓库 建设 的 方法 论 

“制定 数据 标准 ， 建 立 数据 管控 机 制 ， 以 数据 、 应 用 驱动 为 主 ” 是 数据 仓库 基本 的 建设 
方法 论 。 如 图 9-9 所 示 ， 对 于 数据 仓库 的 建设 应 该 首先 建立 分 析 类 数据 标准 和 基础 类 数据 
标准 ， 同 时 成 立 数 据 管 控 机 制 ， 最 后 以 数据 、 应 用 驱动 为 主 ， 建 立 数 据 仓库 系统 。 其 中 数据 
仓库 可 以 分 成 基础 数据 屋 、 汇 总 数据 层 和 库 内 集 市 屋 。 基 础 数据 层 的 数据 是 以 主题 域 的 方式 
进行 划分 ， 汇 总 数据 层 在 基础 数据 层 的 基础 上 按照 时 间或 者 机 构 等 维度 进行 汇总 。 库 内 集 市 
层 一 般 是 在 汇总 数据 层 或 者 基础 数据 层 的 基础 上 建立 起 来 的 。 应 用 可 以 建立 在 库 内 集 市 层 或 
者 库 外 集 市 层 中 。 
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图 9-9 数据 仓库 建设 的 方法 论 
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(1) 制定 数据 标准 

制定 数据 标准 时 ， 可 参考 金融 数据 模型 ， 同 步 设 计 标 准 参考 模型 ， 直 接 构成 数据 仓库 逻 
辑 数据 模型 的 “骨架 ”和 核心 内 容 。 同 时 推进 数据 标准 化 的 工作 ， 保 证 基础 信息 项 的 名 称 、 
定义 、 口 径 一 致 。 在 此 基础 上 ， 逐 步 建立 数据 仓库 ， 将 各 个 系统 的 数据 分 类 汇集 到 数据 仓库 
中 ， 实 现 数据 管理 的 规范 化 和 标准 化 。 例 如 ， 将 客户 、 产 品 、 机 构 等 基础 信息 建立 统一 的 数 
据 标准 ， 以 确保 名 称 、 定 义 、 口 径 和 来 源 的 一 臻 性， 然后 在 数据 仓库 的 建设 过 程 中 遵循 这 些 
统一 的 标准 。 

(2) 建立 数据 管控 机 制 

以 元 数据 管理 为 基础 ， 以 管控 流程 为 手段 ， 使 数据 仓库 成 为 可 信 、 可 欣 的 数据 源 。 

(3) 以 数据 、 应 用 驱动 为 主 

提升 经 党 管理 、 决 策 分 析 和 监 省 报 送水 平 。 

2. 数据 仓库 规划 的 原则 

数据 仓库 满足 高 将 、 灵 活 的 多 层次 的 数据 应 用 需求 ， 以 更 高 的 效率 和 质量 来 文 持 复杂 的 
分 析 应 用 。 数 据 仓 库 能 够 整合 各 类 数据 源 ， 提 高 数据 织 构 的 灵活 性 、 数 据 处 理 高 效 性 和 数据 
加 工 的 自动 化 水 平 ， 使 系统 设计 更 具 前 脆性 和 易 扩 展 性 ， 保 证 系统 安全 稳定 性 的 提高 。 明 确 
各 个 部 门 管理 职责 ， 指 定 信 息 管 理 六 位 职责 ， 完 善 数据 管理 技术 册 1 位， 制定 管理 岗位 续 效 考 
核 等 指标 。 

3. 数据 仓库 的 实现 方式 

一 般 来 说 ， 数 据 仓库 的 实现 方式 可 以 分 成 两 类 . 数据 驱动 的 实现 方式 和 业务 驱动 的 实现 
方式 ， 如 图 9-10 所 示 。 



































业务 驱动 的 | 


数据 驱动 的 






图 9-10 数据 仓库 的 实现 方式 


(1) 数据 驱动 的 实现 方式 

当 业 务 需 求 不 明确 的 时 候 ， 按 照 这 种 方式 ， 首 先进 行 全 企业 的 数据 建 模 ， 并 且 按 照 E/R 
模型 建立 数据 仓库 ， 然 后 根据 业务 部 门 的 需求 建立 相应 的 数据 集 市 ， 数 据 仓 库 作为 数据 集 市 
的 唯一 来 源 。 从 整体 的 角度 进行 总 体 规 划 ， 例 如 6 ~8 个 月 搭建 基础 数据 平台 ， 形 成 初步 成 
果 ， 采 用 循环 式 的 开发 方式 ， 问 业务 部 门 提供 切实 的 成 果 。 可 以 边 开 发 、 边 投产 、 边 推广 、 
边 收 益 。 

(2) 业务 驱动 的 实现 方式 

当 业 务 需 求 非常 明确 的 时 候 ， 按 照 业 务 需 求 近 代 地 建设 数据 仓库 ， 在 建设 数据 仓库 的 过 
程 中 ， 有 什么 样 的 业务 需求 就 抓 取 什 么 数据 。 

两 种 方式 的 不 同 点 如 图 9-11 所 示 。 

数据 驱动 的 实现 方式 需要 将 数据 仓库 的 模型 在 前 期 做 扎实 ,使 得 大 部 分 的 人 力 集中 在 数 
据 仓 库 的 基础 上 开发 应 用 ， 数 据 仓库 的 模型 只 需要 微调 就 可 以 满足 应 用 。 特 点 是 前 期 建立 数 
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数据 驱动 的 实现 方式 需要 业务 驱动 的 实现 方式 是 在 业 
| 将 数据 仓库 的 模型 在 前 期 务 需 求 很 明确 的 情况 下 ， 按 


做 扎实 ， 使 得 大 部 分 的 人 照 业务 需求 进 代 地 建立 数据 
| 力 集中 在 数据 仓库 的 基础 仓库 模型 ， 即 有 什么 样 的 业 
| 上 开发 应 用 ， 数 据 仓库 的 务 需 求 就 为 数据 仓库 抓 取 什 
模型 只 需要 微调 就 可 以 斌 么 样 的 数据 





图 9-11 两 种 方式 的 不 同 点 





据 仓 库 模 型 需要 的 时 间 周 期 长 ， 见 效 慢 ， 但 是 一 旦 数据 仓库 模型 建立 扎实 后 ， 后 期 的 基于 数 
据 仓 库 的 应 用 开发 时 间 就 会 大 大 纺 短 ， 数 据 仓 库 模 型 上 只 需 进行 微调 就 可 以 满足 应 用 需求 。 

业务 驱动 的 实现 方式 是 在 业务 需求 很 明确 的 情况 下 ， 按 照 业 务 需 求 近 代 地 建立 数据 仓库 
模型 ， 即 有 什么 样 的 业务 需求 就 为 数据 仓库 抓 取 什么 样 的 数据 。 特 点 是 前 期 建立 数据 仓库 需 
要 的 时 间 周 期 较 短 ， 对 项 目 来 说 ， 具 有 “ 短 、 平 、 快 ”的 特点 。 但 是 对 于 后 期 如 采 需 要 增 
加 新 的 应 用 ， 那 么 数据 仓库 模型 需要 有 较 大 的 调整 。 人 简单 来 亦 ， 业 务 驱 动 就 是 有 什么 业务 需 
求 就 抓 取 什 么 数据 ， 而 对 于 数据 驱动 来 说 ,是 当 很 多 业务 知 求 讲 不 清楚 的 时 候 ， 先 把 所 有 有 
用 的 数据 全 部 都 放 进 数据 仓库 中 。 

总 结 来 说 ， 数 据 仓库 的 整体 建设 思路 主要 是 : 

首先 是 整体 规划 和 分 步 实施 ， 也 就 是 先 设 立 分 阶段 的 目标 ， 再 逐步 实施 。 

然后 是 完全 将 业务 需求 作为 数据 仓库 系统 建设 的 驱动 ， 最 终 让 数据 仓库 的 分 析 系 统 和 业 
务 系统 能 够 互相 交互 和 影响 ， 形 成 一 个 闭环 的 结构 。 

最 后 还 可 以 采用 齐头并进 的 方式 建设 数据 仓库 。 例 如 ， 以 数据 为 驱动 的 系统 分 析 和 以 业 
务 需求 为 驱动 的 系统 分 析 同 时 进行 。 


9.2.2 数据 仓库 设计 原则 


数据 仓库 架构 设计 遵循 以 下 原则 ， 可 重用 性 、 高 性 能 、 可 扩展 性 、 可 管理 性 和 高 可 用 
性 ， 如 图 9-12 所 示 。 























高 可 用 性 可 扩展 性 





可 管理 性 
图 9-12 数据 仓库 架构 设计 遵循 的 原则 


(1) 可 重用 性 
数据 仓库 的 可 重用 性 是 指数 据 仓 库 系 统 的 组 件 可 以 被 多 次 利用 。 例 如 ,使 用 ETL 工具 
或 者 数据 服务 组 件 ， 提 高 效 据 和 组 件 的 可 重用 性 ， 从 而 减少 重复 的 开发 。 
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(2) 高 性 能 

数据 仓库 应 该 满足 高 性 能 的 需求 。 对 数据 仓库 来 说 ， 可 以 采用 诸如 人 负载 均衡 、 多 机 并 行 
的 技术 提高 数据 仓库 系统 的 啊 应 处 理 能 力 ， 这 样 可 以 多 方面 、 多 层次 地 提升 数据 仓库 的 
性 能 。 

(3) 可 扩展 性 

数据 仓库 系统 应 该 尽量 支持 以 第 三 范式 为 主 的 逻辑 数据 模型 的 设计 方法 。 同 时 需要 考虑 
架构 灵活 的 原则 ， 将 业务 需求 封装 到 数据 仓库 模型 中 ， 减 少数 据 不 必要 的 重复 。 保 证 在 业务 
需求 发 生变 化 的 时 候 ， 改 动量 最 小 人 化。 这样， 可 以 满足 未 来 数据 仓库 系统 的 可 扩展 性 。 

(4) 可 管理 性 

数据 仓库 的 可 管理 性 是 指 当 局 部 发 生变 化 的 时 候 ， 应 该 从 全 局 的 角度 估计 出 这 个 变更 可 
能 产生 的 影响 。 

(5) 高 可 用 性 

数据 仓库 的 高 可 用 性 是 指 在 规定 的 服务 时 间 范 围 外 ， 数 据 仓库 系统 可 以 安排 计划 内 的 停 
机 。 但 是 如 果 在 服务 时 间 范 围 内 ， 出 现 因为 硬件 或 者 其 他 原因 导致 的 系统 服务 或 者 数据 不 可 
用 时 ， 那 么 应 该 保证 数据 仓库 系统 尽快 恢复 ， 尽 量 避 免 因 停机 惠 来 的 损失 。 

对 于 简单 加 工 、 以 查询 为 主 的 数据 服务 ， 不 需要 使 用 数据 仓库 技术 。 数 据 仓库 的 应 用 需 
要 建立 在 海量 历史 数据 和 复杂 多 维 的 计算 上 。 


9.2.3 数据 仓库 架构 规划 


1. 数据 仓库 的 架构 和 定位 
数据 仓库 可 以 作为 数据 架构 规划 中 的 重要 内 容 之 一 。 一 般 来 说 ， 在 系统 中 的 定位 如 
图 9-13 所 示 。 
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图 9-13 数据 仓库 的 架构 和 定位 
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数据 仓库 包括 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 ， 如 网 9-14 所 示 。 


基础 数据 层 汇总 数据 层 


汇总 数据 





图 9-14 数据 仓库 包括 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 


数据 仓库 有 以 下 几 个 特征 : 

1) 数据 仓库 整合 系统 的 全 局 信息 ， 包 括 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 。 

2) 数据 仓库 中 的 数据 通常 包含 历史 信息 ， 记 录 了 从 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 
信息 ， 通 过 这 些 信 息 ， 可 以 对 企业 的 发 展 历程 和 未 来 趋势 做 出 分 析 和 预测 。 

3) 数据 仓库 的 数据 来 源 可 以 是 结构 化 的 基础 数据 、 非 结构 化 数据 结构 化 的 信息 ， 也 可 
以 是 产品 数据 或 者 主 数据 。 

4) 数据 仓库 中 的 库 内 集 市 层 是 根据 应 用 需求 形成 的 数据 集合 ， 它 支撑 了 各 种 专业 化 的 应 用 。 

下 面 分 别 对 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 进行 描述 . 

(1) 基础 数据 层 

对 于 数据 仓库 中 的 基础 数据 层 来 说 ， 它 存储 了 数据 仓库 最 细 市 层次 的 数据 。 它 的 数据 源 
来 自 于 数据 准备 区 中 的 数据 ， 是 最 贴近 数据 源 的 一 层 。 

基础 数据 层 的 特性 : 

1) 基础 数据 层 一 般 是 按照 数据 仓库 的 第 三 范式 进行 数据 组 织 的 。 

2) 基础 数据 层 作 为 汇总 数据 层 的 数据 源 。 

3) 基础 数据 层 一 般 不 做 删除 操作 。 

数据 仓库 基础 数据 层 同 数据 准备 区 中 的 基础 层 相 似 ， 但 是 两 者 在 组 织 形 式 、 用 途 、 内 
容 、 访 问 频 率 等 方面 存在 差异 ， 见 表 9-1。 


表 9-1 数据 仓库 基础 数据 层 与 数据 准备 区 中 的 基础 层 的 差异 


差 异 点 数据 仓库 基础 数据 层 数据 准备 区 中 的 基础 层 


按 第 三 范式 存储 ， 强 调 完整 性 、 一 致 性 ， 存储 贴 源 ， 按 第 一 范式 或 第 二 范式 存储 ， 时 
时 效 性 相对 较 低 效 性 高 


用 途 不 同 支持 仓库 汇总 加 工 主要 文 持 基础 产品 加 工 ， 并 对 数据 仓库 供 数 
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(2) 汇总 数据 层 

对 于 数据 仓库 汇总 数据 层 来 说 ， 它 是 对 基础 数据 层 的 数据 进行 轻 度 汇总 ， 同 时 为 分 析 型 
的 应 提供 数据 服务 。 

汇总 数据 层 的 特性 : 

an 

2) 汇总 数据 层 是 对 明细 数据 的 必要 整合 ， 目 的 是 对 一 些 共 性 需求 进行 加 工整 合 ， 提 高 
数据 的 利用 率 。 

3) 汇总 数据 层 的 来 源 应 该 是 数据 仓库 中 的 基础 层 ， 汇 总 的 问题 可 以 直接 反映 一 些 业 务 
需求 。 

通过 创建 中 间 汇 总 表 ， 预 关联 和 汇总 篆 用 的 数据 ， 使 其 多 个 数据 集 市 可 以 共享 该 数据 ， 
以 提高 数据 仓库 的 性 能 ， 同 时 也 降低 了 ETL 工作 的 复杂 性 。 

(3) 库 内 集 市 层 

数据 仓库 规划 库 内 集 市 ， 首 先 数据 在 基础 层 整 合 后 ， 做 一 些 汇 总 设计 。 可 以 把 基础 数据 
层 的 数据 和 汇总 数据 抽取 出 来 做 成 接口 数据 ， 提 供 到 库 外 建设 。 对 于 一 些 应 用 较为 复杂 的 、 
独立 的 情况 ， 把 数据 下 放 到 库 外 应 用 。 而 相对 应 用 倘 单 的 ， 直 接 在 仓库 内 实施 。 

数据 仓库 建设 一 期 先 把 所 有 源 数据 纳入 数据 仓库 的 基础 数据 层 ， 然 后 加 工 到 汇总 数据 
层 ， 随 着 业务 需求 的 增加 ， 悍 慢 扩展 数据 仓库 的 内 容 。 

例如 ， 个 人 基本 信息 、 地 址 等 信息 直接 在 基础 数据 层 抽 取 ; 余额 类 的 、 每 天 都 可 能 发 生 
变化 的 数据 先 在 汇总 数据 层 加 工 ， 再 抽取 到 集 市 。 

汇总 数据 层 是 公共 加 工 层 。 汇 总 加 工 一 次 ， 可 以 文 持 多 个 应 用 。 例 如 ， 按 客户 、 产 品 进 
oo 。 可 以 把 基 础 数据 尽 的 明细 数据 汇总 到 汇 癌 数据 层 ， 将 汇总 数据 层 作 
为 公共 数据 提供 给 应 

eg 


















































人 自己 的 数据 集 市 ， 
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数据 仓库 的 库 内 集 市 有 多 个 数据 来 源 ， 包 括 数据 仓库 内 的 


区 汇总 数据 层 和 基础 数据 层 | 


数据 仓库 中 库 内 集 市 的 数据 往往 是 统计 性 的 数据 ， 对 明细 
数据 保存 较 少 ， 可 以 直接 应 用 








苞 数据 仓库 中 库 内 集 市 可 以 有 元 余数 据 本 


数据 仓库 中 库 内 集 市 往往 是 降 范 式 的 模型 或 者 星 形 模型 和 








雪人 花形 模型 





图 9-15 数据 仓库 中 的 库 内 集 市 的 特点 





1) 业务 部 门 可 以 维护 目 己 的 数据 集 市 ， 通 过 目 定 义 展 示 需 要 的 数据 内 容 。 
2) 数据 仓库 中 库 内 集 市 之 间 的 数据 交换 通 。 过 数据 交换 层 来 完成 。 
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3) 数据 仓库 的 库 内 集 市 有 多 个 数据 来 源 ， 包 括 数据 仓库 内 的 汇总 数据 层 和 基础 数 
据 层 。 
4) 数据 仓库 中 库 内 集 市 的 数据 往往 是 统计 性 的 数据 ， 对 明细 数据 保存 较 少 ， 可 以 直接 





5) 数据 仓库 中 库 内 集 市 可 以 有 宛 余数 据 。 
6) 数据 仓库 中 库 内 集 市 往往 是 降 范 式 的 模型 或 者 星 形 模型 和 雪人 花形 模型 。 
下 面 分 析 数 据 仓库 建设 的 一 个 重要 方法 ， 如 图 9-16 所 示 : 
1) 在 数据 仓库 的 基础 数据 层 ， 建 立 稳定 的 数据 模型 ， 同 时 建立 数据 标准 ， 实 现 数据 的 
标准 化 和 数据 集中 。 

2) 在 数据 仓库 的 汇总 数据 层 ， 建 立 分 析 类 的 数据 标准 。 对 常用 的 、 重 要 的 业务 指标 进 
行 统一 加 工 计算 。 实 现 业 务 的 汇总 ， 创 建 高 效 的 数据 共享 平台 。 

3) 数据 仓库 的 库 内 集 市 层 包 括 基 础 数据 层 的 视图 、 汇 总 数据 层 的 视图 和 各 种 加 工 视 
图 ， 如 图 9-16 所 示 。 


数据 挖掘 平台 
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图 9-16 数据 仓库 建设 的 另外 一 个 重要 方法 





数据 管控 的 范围 包括 元 数据 管理 、 数 据 质 量 管理 和 数据 维护 管理 。 

数据 管控 的 手段 包括 数据 管理 系统 、 调 度 与 监控 系统 和 数据 管理 考核 系统 等 。 其 中 ， 数 
据 管 理 考核 系统 带 助 系统 有 效 提 升 数 据 质 量 ， 一 般 采 用 系统 检查 和 人 工 核对 的 方式 进行 数据 
管控 考核 工作 ， 这 种 方式 可 以 有 效 地 推动 数据 管控 制度 的 执行 ， 提 升 数据 质量 ,促进 业务 人 
员 使 用 数据 管理 系统 加 强 数 据 质量 的 管理 。 

建设 数据 仓库 的 方法 之 一 就 是 首 移 制定 数据 标准 ， 形 成 数据 仓库 逻辑 模型 的 核心 骨 织 ， 
然后 以 元 数据 管理 为 基础 ， 保 证 数据 仓库 成 为 可 信和 可 控 的 数据 源 ， 最 后 提高 管理 水 平 。 

总 的 来 说 ， 关 于 数据 仓库 的 定位 有 如 下 几 个 方面 : 
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1) 数据 仓库 中 的 来 源 数据 为 结构 化 的 ， 或 者 是 已 经 结构 化 的 基础 数据 。 

2) 数据 仓库 中 的 数据 都 是 有 用 的 数据 ， 是 经 过 清洗 后 的 数据 。 

3) 数据 仓库 加 工 后 的 数据 可 以 同步 到 数据 应 用 层 ， 由 应 用 层 对 外 提供 服务 。 

4) 数据 仓库 中 的 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 和 都 有 各 目的 定位 和 用 途 。 

数据 仓库 从 生产 系统 采集 数据 ， 经 过 ETL 过 程 将 数据 加 载 到 数据 仓库 中 ， 然 后 进行 汇 
总 和 加 工 ， 最 后 在 数据 仓库 的 基础 上 提供 各 种 应 用 和 分 析 。 

2. 数据 仓库 关键 设计 点 

基于 业务 及 整体 染 构 规划 ,我们 讲解 数据 仓库 的 关键 设计 点 。 

(1) 数据 仓库 的 构建 方法 

数据 仓库 的 构建 方法 主要 包括 目 上 而 下 的 实现 方式 和 目下 而 上 的 实现 方式 ， 如 图 9-17 
所 未。 





























“” 自 上 而 下 的 实现 方式 晶 自 下 而 上 的 实现 方式 





图 9-17 数据 仓库 的 构建 方法 


e 自 上 而 下 的 实现 方式 

这 种 方式 是 企业 级 的 数据 建 模 和 数据 整合 ， 一 般 按照 第 三 范式 模型 建立 数据 仓库 ， 然 后 
根据 业务 部 门 的 需求 ， 基 于 已 有 的 数据 仓库 建立 相应 的 数据 集 市 。 数 据 集 市 的 数据 来 源 是 数 
据 仓 库 。 建 设 的 条 件 是 业务 需求 较 少 ， 而 数据 准备 区 中 的 基础 数据 又 比较 完整 ， 这 样 可 以 采 
用 上 自 上 而 下 的 构建 方法 。 将 基础 数据 在 数据 仓库 中 进行 全 面 存储 ， 而 后 续 的 应 用 可 以 随 着 需 
求 的 完善 而 不 断 扩 展 。 优 点 是 可 以 进行 宏观 的 全 局 规划 ， 有 和 较 好 的 数据 一 致 性 和 较 低 宛 余 。 
缺点 是 建设 周期 长 ， 前 期 很 难 见 到 实际 效益 。 

e 自 下 而 上 的 实现 方式 

按照 业务 需求 通过 渐进 的 方式 建设 数据 仓库 。 首 先 根 据 业 务 需求 建立 数据 集 市 ， 然 后 把 
一 系列 维度 相同 的 数据 集 市 纳入 到 数据 仓库 中 ， 这 种 分 阶段 的 建设 方式 就 是 自 下 而 上 的 实现 
方式 。 其 中 每 一 阶段 的 数据 集 市 必须 兼容 到 数据 仓库 中 ， 可 以 先 建设 部 门 级 、 面 癌 主 题 的 数 
据 集 市 ， 然 后 扩建 为 数据 仓库 。 它 的 优点 是 从 业务 需求 出 发 ， 项 目 周期 得 。 缺 点 是 数据 仓库 
的 一 致 性 难以 保证 ， 数 据 的 宛 余 度 较 高 。 

如 果 分 析 类 的 业务 需求 比较 多 ， 同 时 为 了 快速 满足 应 用 的 开发 ， 可 以 采用 目下 而 上 的 构 
建 方法 ， 先 将 有 业务 需求 的 数据 存储 到 数据 仓库 中 ， 继 而 开发 应 用 ， 然 后 慢 慢 地 补充 数据 仓 
库 中 的 数据 。 

总 之 ， 数 据 仓 库 的 构建 方法 是 以 业务 需求 为 导向 的 ， 并 且 不 断 完善 的 闭环 流程 。 

(2) 数据 仓库 ODS 建设 方法 

ODS 的 概念 也 是 由 比尔 . 恩 门 在 《建立 运营 数据 仓储 》 一 书 中 提出 来 的 。 他 认为 分 析 
决策 需要 基于 实时 的 和 细节 性 的 运营 数据 ， 同 时 也 需要 这 些 数据 是 集成 的 和 面向 主题 的 ， 因 
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此 提出 了 ODS 的 概念 。 

ODS 的 数据 来 自 于 各 个 分 散 的 业务 系统 ， 这 些 数 据 是 面 回 主题 的 、 集 成 的 、 变 化 的 和 
反映 当前 情况 的 数据 。 一 般 来 说 ，0DS 和 数据 仓库 作为 独立 的 系统 分 别 进行 建设 。 但 是 随 
着 硬件 水 平 的 提高 ， 有 时 候 0DS 也 被 纳入 到 数据 仓库 中 进行 建设 。 

(3) 数据 集 市 设计 

数据 集 市 基于 业务 需求 的 复杂 度 ， 考 虑 设置 库 内 集 市 还 是 库 外 集 市 。 例 如 ， 当 业务 需求 
比较 单一 ， 复 杂 度 较 高 的 时 候 ， 为 了 性 能 上 的 考虑 ， 可 以 建立 库 外 集 市 。 如 果 复 杂 度 较 低 ， 
那么 可 以 在 数据 仓库 内 建立 集 市 。 

(4) 非 结 构 化 数据 在 数据 仓库 的 应 用 

对 于 非 结 构 化 数据 ， 可 以 通过 Hadoop 平台 建立 非 结 构 化 数据 的 标签 、 摘 要 、 索 引 、 日 
志 等 信息 ， 然 后 提取 非 结构 化 数据 的 元 数据 信息 ， 如 类 别 、 索 引 、 摘 要 等 ， 实 现 与 结构 化 数 
据 的 整合 和 关联 分 析 。 在 统计 分 析 应 用 中 ， 可 能 涉及 结构 化 数据 和 非 结构 化 数据 的 联合 应 
用 ,也 可 能 是 对 非 结构 化 数据 的 单独 应 用 ， 如 图 9-18 所 示 。 









































结构 化 数据 EE 


非 结 构 化 数据 
的 元 数据 信息 


非 结 构 化 数据 


图 9-18 非 结构 化 数据 在 数据 仓库 的 应 用 


(5) 数据 标准 在 数据 仓库 中 的 落地 

在 建设 数据 仓库 之 前 ， 如 有 果 可 以 先 完成 数据 标准 的 建设 ， 则 有 利于 数据 仓库 在 数据 一 臻 
性 方面 的 控制 。 

(6) 关于 数据 仓库 的 灾难 备份 设计 

由 于 地 震 、 水 灾 等 因 系 可 能 会 对 数据 安全 造成 危害 ， 因 此 国家 出 台 了 一 系列 法 规 、 政 策 ， 
要求 各 重要 机 构 进行 灾难 备份 体系 的 建设 。 后 面 会 详细 介绍 数据 仓库 系统 的 灾难 备份 建设 。 

3. 数据 仓库 质量 的 控制 是 数据 治理 的 重要 内 容 

对 数据 仓库 的 质量 控制 是 数据 治理 的 重要 内 容 之 一 。 数 据 仓库 系统 服务 于 经 营 决 条 ， 数 
据 应 该 是 全 面 的 、 破 实 的 和 有 意义 的 。 如 琳 数 据 质 量 得 不 到 你 证 ， 束 会 使 决策 分 析 者 做 出 错 
误 的 判断 ， 可 能 会 引起 不 可 挽回 的 商业 损失 。 因 此 ， 提 高 数据 质量 是 数据 仓库 系统 建设 的 重 
要 环节 。 

总 体 来 说 ， 数 据 仓库 对 数据 质量 的 要 求 可 以 归纳 为 以 下 几 点 : 数据 的 正确 性 、 数 据 的 完 
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整 性 、 数 据 的 一 致 性 、 数 据 的 有 效 性 、 数 据 的 时 效 性 、 数 据 的 可 获取 性 和 数据 的 元 余 性 ， 如 
图 9-19 所 示 。 








数据 的 正确 性 数据 的 完整 性 数据 的 一 致 性 数据 的 有 效 性 数据 的 可 获取 性 


D 








图 9-19 数据 仓库 对 数据 质量 的 要 求 





。 效 据 的 正确 性 
数据 在 数据 仓库 中 是 否 会 正确 体现 。 
® 效 据 的 完整 性 
数据 仓库 中 的 数据 是 否 是 完整 的 。 
® 效 据 的 一 致 性 
数据 仓库 中 的 数据 是 否 是 一 致 的 。 
® 效 据 的 有 效 性 
数据 是 个 在 企业 定义 的 可 接受 犯 围 之 内 。 
® 效 据 的 时 效 性 
数据 在 给 定 的 时 间 内 是 否 有 效 。 
e 效 据 的 可 获取 性 
数据 是 否 易于 获取 、 理 解 和 使 用 。 
® 数据 的 元 余 性 
数据 仓库 中 是 否 存在 不 必要 的 数据 元 余 。 
拉 术 类 数据 质量 指标 见 表 9-2。 
表 9-2 技术 类 数据 质量 指标 














指标 类 型 说 明 

完整 性 实体 的 每 个 属性 都 有 明确 的 值 ， 不 存在 “ 空 ”或 “未 知 ” 的 属性 
相关 性 对 于 数据 库 中 的 某 些 实 体 ， 它 们 的 存在 可 能 要 依赖 于 其 他 的 实体 
WE -个 表 中 的 一 组 属性 的 值 是 唯一 的 

有 效 性 体 属 性 的 值 要 在 用 户 定 义 的 有 效 范围 之 内 

















实 
及 时 性 是 否 满足 业务 应 用 对 数据 的 时 间 要 求 
非 重 复 记录 是 否 存在 多 个 记录 表现 同一 个 实体 的 现象 


业务 类 数据 质量 指标 见 表 9-3。 
表 9-3 业务 类 数据 质量 指标 











指标 类 型 说 明 
真实 性 数据 库 中 实体 必须 与 现实 世界 中 的 对 象 是 一 致 的 
精确 性 指数 据 精 度 是 否 符合 业务 需要 
一 致 性 数据 是 否 和 其 他 系统 的 业务 含义 是 一 致 的 
可 理解 性 数据 本 里 的 含义 是 否 简单 、 明 确 
可 获得 性 数据 是 否 可 获得 ， 并 满足 业务 使 用 要 求 
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数据 仓库 的 数据 质量 面临 的 挑战 见 表 9-4。 


表 9-4 数据 仓库 的 数据 质量 面临 的 挑战 




















质量 分 类 关键 问题 
I 同一 条 记录 被 多 个 应 用 程序 访问 时 ,信息 含义 是 否 保 持 一 致 性 
时 效 性 数据 从 被 知道 到 使 用 ， 需 要 多 长 时 间 ， 这 种 延 到 是 否 可 以 被 用 户 接受 
可 访问 性 数据 是 否 可 以 被 需要 的 人 访问 
可 理解 性 数据 是 否 容易 理解 
完整 数据 是 否 有 足够 的 完整 信息 ， 并 且 能 够 用 于 决策 分 析 
正确 反映 现实 数据 是 否 在 任何 时 期 内 都 符合 实际 情况 
汇总 数据 的 准确 性 数据 汇总 是 否 准 确 和 可 信 
无 元 余数 据 是 否 有 多 条 记录 表示 同一 个 实体 





数据 质量 存在 问题 的 根本 原因 : 
我 们 可 以 把 数据 质量 存在 问题 的 原因 归 为 以 下 几 类 ， 如 图 9-20 所 示 。 


数据 格式 问题 | 数据 一 致 性 问 是 
时 -~ 





业务 逻辑 问题 
图 9-20 数据 质量 存在 问题 的 原因 

1 ) 数据 格式 问题 。 人 例如， 数据 的 缺失 、 超 出 了 数据 范围 、 无 效 数 据 格 式 等 。 

2) 数据 一 致 性 问题 。 出 于 性 能 考虑 ， 可 能 会 去 卸 一 些 外 键 或 者 检查 约束 ， 这 样 可 能 
出 现 数据 一 致 性 的 问题 。 

3) 业务 逻辑 问题 。 通 稼 是 由 于 数据 库 设 计 出 现 问 题 所 致 。 

原因 分 析 和 解决 思路 : 

1) 在 构造 数据 仓库 的 时 候 ， 如 果 数 据 质量 得 不 到 保证 , 那么 在 后 续 的 构建 过 程 中 ， 数 
据 质 量 所 引发 的 问题 会 逐渐 被 放大 。 

2) 数据 质量 问题 会 贯穿 于 项 目的 整个 生命 周期 ， 必 须 面 对 并 且 纵 出 解决 办 法 , 尽量 把 
影 啊 降 低 到 最 小 。 通 常情 况 下 ， 当 过 到 错误 数据 时 ， 通 过 记录 ， 同 时 打上 错误 的 标记 ， 先 保 
证 这 些 数 据 顺 利通 过 , 然后 根据 这 些 错 误 标 志 , 通过 报表 反映 出 来 。 这 样 可 以 确保 数据 的 完 
整 性 ， 并 且 真 实 反映 数据 源 的 质量 ， 保 证 数据 仓库 的 顺利 实施 和 任务 的 正常 调度 。 

3) 技术 检测 数据 仓库 质量 的 方法 有 多 和 种。 例如， 第 一 种 方法 ， 对 于 记录 级 的 ， 可 以 先 
分 离 出 主 表 ， 再 验证 目标 表 和 源 表 中 主 表 的 记录 数 是 否 一 致 。 第 二 种 方法 ， 对 于 字段 级 别 
的 ， 如 有 两 个 团队 ， 一 个 是 开发 组 ， 男 一 个 是 数据 质量 组 ， 当 开发 团队 抽取 出 数据 后 ， 再 由 
数据 质量 组 通过 业务 规则 编写 验证 脚本 ， 验 证 两 边 的 结果 是 否 保持 一 致 。 第 三 种 方法 ， 寻 找 
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不 同 目标 表 中 相同 口径 的 值 ， 验 证 数据 是 否 一 致 。 

4) 在 大 多 数 情况 下 ， 解 决 数据 仓库 质量 问题 最 根本 的 方法 就 是 从 源头 解决 质量 的 问 
题 ， 但 是 这 种 方式 需要 投入 大 量 人 力 成 本 和 时 间 成 本 。 

5) 可 以 通过 手工 方式 对 数据 仓库 质量 问题 进行 处 理 。 

数据 质量 的 检查 应 该 尽量 在 徘 前 的 位 置 进 行 ， 这 样 确保 错误 的 数据 在 前 面 束 补 消除 挥 ， 
因为 每 一 点 的 错误 都 会 导致 在 后 续 的 处 理 过 程 中 被 无 限 放 大 。 数 据 的 完整 性 和 正确 性 问题 都 
可 能 因为 ETL 的 错误 导致 ， 可 以 通过 源 和 目标 的 汇总 对 比 ， 找 出 差异 ， 从 而 确定 数据 的 完 
整 性 和 正确 性 是 否 有 问题 。 

数据 仓库 质量 问题 解决 办 法 可 参考 案例 如 网 9-21 所 示 。 























[采用 抽样 、 统计 分 析 有 站 采用 两 端 对 比 等 手段 


| 等 技术 手段 提高 数据 国 量 | 确保 数据 质量 


| 的 质量 


图 9-21 数据 仓库 质量 问题 解决 办 法 参考 案例 





(1) 采用 抽样 、 统 计 分 析 等 技术 手段 捉 高 数据 的 质量 

对 于 数据 仓库 来 疯 ， 它 主要 存储 的 是 大 量 的 历史 数据 ， 无 形 当 中 加 大 了 数据 质量 检查 的 
难度 ， 如 何 保证 进入 数据 仓库 中 的 数据 是 高 质量 呢 ? 可 以 采用 抽样 和 统计 分 析 等 技术 手段 提 
高 数据 的 质量 ， 并 且 提 高 效 据 仓 库 的 高 效 性 。 

它 的 具体 做 法 是 通过 抽 数 定理 抽取 少 部 分 的 样本 数据 ， 然 后 进行 系统 级 别 的 数据 校 验 。 
如 采 出 现 系统 级 别 的 错误 ， 则 马上 返回 。 如 果 没 有 出 现 系统 级 别 的 错误 ， 则 对 数据 抽样 取得 
的 数据 进行 质量 打分 。 如 有 数据 质量 的 分 数 较 高 ， 那 么 它 的 人 库 校 验 相 对 简单 ， 即 校 验 规则 
相对 简 乍 ， 入 库 的 效率 束 很 蜗 。 如 来 数据 质量 的 分 数 较 低 ， 那 么 它 的 入 库 校 验 相对 复杂 ， 也 
就 是 校 验 规则 相对 复杂 。 因 此 ， 可 以 将 入 库 的 校 验 可 配置 化 。 

(2) 采用 两 端 对 比 等 于 段 确 保 效 据 质 量 

对 于 数据 仓库 的 数据 质量 来 说 ， 它 可 以 进行 人 库 时 的 格式 校 验 和 逻辑 校 验 ， 当 入 库 后 ， 
再 通过 两 应 对 比 等 手段 确保 数据 质量 。 所 谓 两 冰 对 比 是 指 在 源 系 统 中 抽取 出 一 部 分 数据 ， 再 
和 数据 仓库 中 的 一 部 分 数据 进行 核对 。 

综 上 所 述 ， 第 一 种 方式 是 采用 抽样 、 统 计 分 析 的 方法 发 现 效 据 的 系统 错误 ， 以 及 提高 数 
据 校 验 的 效率 ， 将 数据 质量 校 验 都 集中 在 人 库 前 完成 ， 人 库 后 的 数据 质量 问题 主要 通过 开 议 
处 理 等 手段 来 实现 。 

这 种 采用 抽样 、 统 计 分 析 的 校 验 数 据 方法 ， 对 于 质量 好 的 数据 采取 相对 宽松 的 校 验 规 
则 ， 对 于 质量 差 的 数据 采取 相对 严格 的 校 验 规则 ， 这 样 会 大 大 提高 效 据 的 加 载 效 率 。 然 后 对 
于 通过 检验 的 数据 ， 上 再 逐条 进行 检查 ， 同 时 对 于 校 验 规则 的 有 效 性 ， 不 断 进 行 调 整 ， 尽 量 保 
证 入 库 数据 的 质量 。 因 此 ， 第 一 种 方法 是 较为 先进 的 方法 。 

4. 在 大 数据 环境 下 的 数据 仓库 的 建设 

大 数据 是 指 无 法 在 一 定时 间 内 ， 用 传统 型 的 数据 库 软 件 对 其 内 容 进 行 抓 取 、 管 理 和 处 理 
230 


















































的 数据 集合 。 大 数据 用 于 在 成 本 可 承受 的 条 件 下 ， 通 过 非常 快速 采集 、 发 现 和 分 析 ， 从 大 量 
的 、 多 类 别 的 数据 中 提取 价值 。 大 数据 是 一 系列 技术 的 集合 ， 汇 集 了 如 Hadoop/ Mapreduce、 
一 体 机 、NoSQL 、 数 据 分 析 与 挖掘 、 商 业 智 能 、 数 据 仓 库 等 。 
通过 对 大 数据 的 处 理 和 分 析 ， 可 以 发 掘 出 巨大 的 价值 ， 包 括 商业 价值 和 社会 价值 。 
关于 大 数据 环境 下 的 数据 仓库 架构 ， 如 图 9-22 所 示 。 
数据 仓库 


结构 化 数据 


ODS | 





「 1 

! 非 结构 化 数据 ， ] 
| | 分 析 应 用 
| ] z EE 


图 9-22 大 数据 环境 下 的 数据 仓库 架构 








流 数据 强调 的 是 实时 处 理 与 分 析 ， 而 不 是 数据 存储 ， 因 此 一 般 只 在 内 存 中 进行 处 理 ， 随 
看 效 据 的 流动 、 人 处 理 和 分 析 ， 只 和 针对 一 定时 间 内 的 流 数 据 进 行 处 理 和 分 析 。 

对 于 数据 仓库 来 说 ,存储 的 都 是 “金子 ”， 全 部 部 是 有 用 的 信息 。 而 Hadoop 平台 存储 
的 部 是 “ 金 矿 石 ”，Hadoop 平台 的 目的 是 为 了 把 “ 金 矿 石 ” 里 的 “金子 ”筛选 出 来 。 

所 有 的 非 结构 化 数据 都 是 通过 Hadoop 平台 进行 分 析 ， 例 如 通过 网 络 收集 信息 ， 分 析 人 
们 对 银行 的 情感 分 析 ， 包 括 正 面 、 负 面 的 信息 。 同 时 包括 针对 银行 的 预警 分 析 等 。 

非 结 构 化 的 数据 可 以 经 过 结构 化 处 理 ， 再 与 数据 仓库 中 的 数据 结合 起 来 分 析 ， 或 者 单独 
对 非 结 构 化 数据 进行 分 析 。 


9.2.4 数据 仓库 数据 模型 


1. 数据 仓库 模型 设计 原则 
数据 仓库 模型 的 设计 原则 包括 一 致 性 、 可 扩展 性 、 不 倾 加 性、 高 效 性 和 可 回溯 性 ， 如 
图 9-23 所 示 。 





ee 可 回调 性 


图 9-23 数据 仓库 模型 的 设计 原则 
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数据 仓库 模型 的 设计 原则 的 相关 内 容 见 表 9-5。 
表 9-5 数据 仓库 模型 的 设计 原则 的 相关 内 容 
设计 原则 相关 内 容 
数据 仓库 的 数据 模型 必须 在 设计 过 程 中 保持 一 个 统一 的 业务 定义 。 统 一 业务 的 定义 
和 概念 ， 方 便 不 同系 统 的 设计 、 开 发 人 员 在 进行 功能 设计 和 数据 展现 时 的 沟通 和 交流 


业务 需求 是 随时 变化 的 ， 因 此 模型 设计 需要 遵循 “以 不 变 应 万 变 ， 以 小 变 应 大 
模型 的 可 扩展 性 变 ” 的 设计 思想 ， 当 业务 部 门 后 续 有 新 的 需求 时 ， 模 型 不 需要 做 更 改 ， 或 者 只 需 做 
轻微 的 更 改 即 可 满足 业务 需求 


模型 不 倾 加 性 的 含义 是 : 模型 中 的 数据 结构 不 倾 问 于 源 系统 ， 也 不 倾 回 于 上 层 应 
基础 数据 层 模型 的 不 倾向 性 ”| 用 ,不 应 该 和 它们 发 生 耦 合 ， 即 模型 底层 存储 的 是 基础 明细 数据 ， 不 应 倾 问 于 茶 数 
据 源 ， 也 不 应 该 为 菏 个 业务 部 门 的 应 用 需求 做 任何 特殊 加 工 


数据 仓库 处 理 的 数据 量 巨大 ， 而 且 随 着 业务 量 增加 ， 数 据 的 处 理 效 率 必然 受到 影 


模型 的 一 致 性 


























数据 加 工 高 效 性 
J 响 ， 因 此 ， 在 模型 设计 时 ， 需 要 能 够 在 给 定时 间 窗 口内 处 理 海量 数据 

列 如 1 ， 交 上 线 后 ， 业 务 人 员 查 时 ,发现 前 几 天 数据 有 误 ， 需 要 重 半 
pr 例如 ， 数 据 仓库 上 线 后 ， 业 务 人 员 查 看 报表 时 ， 发 现 前 几 天 数据 有 误 ， 需 要 重新 





加 载 数据 ， 此 时 重型 需要 文 持 重 新 加 载 之 前 的 数据 


设计 数据 仓库 模型 的 方法 原则 包括 : 可 维护 性 、 规 范 性 、 粒 度 、 历 史 性 和 了 可用性， 如 
图 9-24 所 示 。 


可 维护 性 规范 性 粒度 poi 





图 9-24 数据 仓库 模型 的 方法 原则 


数据 仓库 模型 的 方法 原则 的 相关 内 容 见 表 9-6。 
表 9-6 数据 仓库 模型 的 方法 原则 的 相关 内 容 
方法 原则 相关 内 容 
数据 流向 清晰 ， 依 赖 关系 简单 ， 当 有 需求 变更 或 者 出 现 问题 时 ， 将 影响 降 至 最 
低 ， 能 够 快速 维护 
模型 设计 规范 性 模型 设计 时 ， 必 须 遵循 一 定 的 设计 规范 ， 如 命名 规范 、 业 务 规则 规范 等 


为 了 满足 将 来 不 同 的 应 用 需求 ， 数 据 仓库 模型 能 够 提供 最 小 粒度 的 详细 数据 ， 以 


模型 的 可 维护 性 














黄 型 的 粒度 
人 支持 各 种 可 能 的 分 析 查 询 
数据 仓库 要 存储 历史 记录 ， 比 如 保留 账户 、 客 户 信息 每 次 变化 的 痕迹 ， 账 户 的 转 
模型 的 历史 性 四 

账 交 易 数据 等 

费 刑 需要 很 方便 地 支持 业务 需求 ， 交 芮 型 设计 完成 后 ， 基 于 之 上 
0 数据 仓库 模型 需要 很 方便 地 支持 业务 需求 ， 数 据 仓库 模型 设计 完成 后 ， 基 于 





的 报表 开发 、 碍 询 开 发 都 很 方便 、 快 捷 


2. 数据 仓库 模型 设计 策略 

按照 数据 仓库 模型 的 设计 原则 ， 建 议 在 数据 仓库 模型 设计 中 采取 如 图 9-25 所 示 的 设计 
策略 ， 包 括 : 数据 仓库 模型 设计 分 层 ; 失效 日 期 填写 为 默认 值 ， 不 采用 空 值 ; 利用 时 间 戳 ， 
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留 历 史 数 据 ; 对 大 表 进 行 分 区 ; 将 设计 流程 规范 化 ; 采用 主流 的 设计 工具 ;数据 和 索引 | 分 
别 存 储 在 不 同 的 表 空 间 中 ; 对 于 特定 的 绥 慢 变化 维 ， 使 用 代理 键 ; 公用 数据 处 理 前 置 。 
失效 日 期 填写 为 默认 值 ， 不 采用 空 值 利用 时 间 惟 ， 保 留 历史 数据 
数据 仓库 模型 设计 分 层 




























对 大 表 进 行 分 区 


将 设计 流程 规 必 化 
公用 数据 处 理 前 置 


采用 主流 的 设计 工具 


对 于 特定 的 缓慢 变化 维 ， 使 用 代理 键 数据 和 索引 分 别 存储 在 不 同 的 表 空 间 中 


图 9-25 数据 仓库 模型 设计 策略 
9.2.5 数据 仓库 建设 路 线 疼 


数据 仓库 的 建设 一 般 可 以 分 成 三 个 阶段 进行 。 

第 一 阶段 : 

完成 数据 仓库 模型 的 建设 。 因 为 数据 仓库 是 面向 主题 的 、 集 成 的 、 历 史 的 、 相 对 稳定 的 
数据 的 集合 。 对 于 面 回 主题 、 集 成 的 特点 ， 数 据 仓库 的 数据 应 该 按照 仓库 的 模型 进行 存储 和 
摆 放 。 对 于 模型 的 建设 ， 在 整个 数据 仓库 建设 中 占 了 相当 大 的 比重 。 建 设 的 内 容 主要 包括 完 
成 数据 仓库 企业 级 的 概念 模型 和 应 用 级 的 逻辑 模型 的 建设 ， 最 后 完成 基于 数据 仓库 物理 模型 
的 实现 。 

第 二 阶段 : 

按照 数据 仓库 的 模型 ， 将 基础 数据 、 产 品 数 据 或 者 日 志 数 据 在 数据 仓库 中 进行 存放 ， 并 
且 完 成 历史 数据 的 迁移 。 有 具体 的 建设 内 容 可 以 包括 : 建设 数据 仓库 的 基础 数据 层 ， 开 发 校 验 
规则 ， 对 入 库 的 数据 进行 检查 ， 最 后 完成 历史 数据 的 迁移 。 因 为 数据 仓库 需要 对 历史 数据 进 
行 统计 和 分 析 ， 所 以 包含 了 历史 数据 迁移 的 工作 。 它 的 数据 流转 如 图 9-26 所 示 ， 源 数据 通 
过 数据 交换 层 将 数据 放 入 到 数据 仓库 中 。 

第 三 阶段 . 

完成 数据 仓库 汇总 数据 层 的 设计 ， 包 括 数据 集 市 的 设计 ， 最 后 将 数据 仓库 数据 加 工 后 导 
入 到 数据 集 市 中 。 数 据 仓库 建设 的 内 容 包 括 完 成 数据 仓库 汇总 数据 层 的 设计 和 数据 仓库 库 内 
集 市 层 的 加 工 。 数 据 仓库 的 数据 流转 如 图 9-27 所 示 ， 汇 总 数据 层 的 数据 来 自 于 基础 数据 层 
的 数据 ， 库 内 集 市 层 的 数据 来 目 于 汇总 数据 层 数 据 或 者 基础 数据 层 数据 ， 库 内 集 市 层 数据 加 
工 完 成 后 同步 到 各 个 应 用 中 ， 并 且 对 外 提供 相应 的 服务 。 








233 


数据 交换 层 


数据 源 1 
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数据 仓库 
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图 9-26 数据 流转 图 


数据 交换 层 数据 仓库 数据 应 用 
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图 9-27 建设 的 内 容 


9. 2.6 关于 数据 仓库 系统 的 灾难 备份 规划 


任何 灾难 造成 的 数据 仓库 系统 停 运 ， 和 都 会 对 一 些 重 要 机 构 产 生 重 大 的 影响 ， 特 别 是 金融 
机 构 。 根 据 国务 院 信息 办 《重要 信息 系统 灾难 恢复 指南 》《 信 息 安 全 风险 评估 指南 》 和 中 国 
人 民 银 行 《 银 行业 信息 系统 灾难 恢复 管理 规范 》， 对 灾难 做 如 下 定义 : 

灾难 是 由 于 人 为 或 目 然 的 原因 ， 造 成 信息 系统 运行 严重 故 隐 或 次 病 ， 使 信息 系统 文 持 的 
业务 功能 停顿 或 服务 水 平 不 可 接受 、 达 到 特定 的 时 间 的 突 发 性 事件 ， 通 笛 导 致 信息 系统 需要 
切换 到 备用 场地 运行 。 

很 多 金融 机 构 为 了 预防 灾难 ， 都 会 对 重要 的 系统 建设 同城 和 异地 的 数据 备份 中 心 ， 对 于 
同城 的 数据 备份 中 心 来 说 ， 它 可 以 接管 所 有 核心 的 业务 系统 ， 而 异地 数据 备份 中 心 应 该 具备 
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恢复 所 需 环境 的 能 力 ， 并 且 时 刻 处 于 运行 或 者 就 绪 状 态 。 下 面 详细 介绍 关于 效 据 仓 库 的 灾难 
备份 (灾难 备份 ) 染 构 规划 。 
1. 灾难 备份 建设 的 方法 论 
关于 灾难 备份 建设 的 方法 论 ， 主 要 分 成 以 下 儿 个 阶段 : 分 析 阶 段 、 架 构 设 计 阶 段 、 技 术 
方案 选择 阶段 、 实 施 阶 段 、 维 护 阶 段 ， 如 图 9-28 所 示 。 
架构 设计 阶段 
Pa 









分 析 阶 段 技术 方案 选择 阶段 


灾难 备份 建设 
方法 论 


[ © 


维护 阶段 OO 轴 实施 阶段 


图 9-28 灾难 备份 建设 的 方法 论 


(1) 分 析 阶 段 

分 析 因为 中 断 和 灾难 对 该 机 构造 成 的 影响 ， 确 定 系 统 恢复 的 优先 顺序 和 相关 性 ， 包 括 恢 
复 的 时 间 目 标 和 恢复 点 目标 ， 明 确 关 键 功 能 的 业务 连续 性 需求 等 。 

(2) 架构 设计 阶段 

确定 灾难 备份 业务 恢复 策略 ， 进 行 灾难 备份 架构 的 设计 ， 以 便 在 规定 时 间 内 恢复 业务 系统 。 

(3) 技术 方案 选择 阶段 

在 选择 方案 方面 ， 首 先 了 解 开 系统 建设 现状 以 及 发 展 趋势 ， 其 次 是 对 灾难 备份 技术 进 
行 评 佑 ， 提 出 方案 建议 ， 最 后 结合 成 本 收益 ， 选 择 最 佳 方案 并 实施 。 

(4) 实施 阶段 

制定 实施 业务 连续 性 的 计划 ， 便 于 在 规定 时 间 内 完成 业务 的 恢复 。 包 括 建 立 紧 急事 件 处 
理 中 心 。 对 于 金融 行业 来 说 ,一 般 都 需要 进行 “两 地 三 中 心 ” 的 建设 , 例如 ， 在 第 一 期 完 
成 同城 灾难 备份 中 心 的 建设 ， 第 二 期 完成 异地 灾难 备份 中 心 的 建设 。 

同城 灾难 备份 中 心 是 指 生产 中 心 和 灾难 备份 中 心 在 同一 个 城市 或 者 相近 区 域内 ， 主 要 防 
范 火灾 、 建 筑 物 破坏 等 灾难 风险 ， 保 证 在 生产 中 心 遭 到 灾难 打击 后 ， 在 极 短 的 时 间 内 可 以 快 
速 恢复 运营 。 但 是 同城 灾难 备份 对 大 规模 灾难 的 防范 能 力 较 弱 。 

异地 灾难 备份 中 心 是 指 生产 中 心 和 灾难 备份 中 心 距离 比较 远 ， 可 能 是 跨 省 或 者 跨 区 域 。 
利用 先进 的 远程 数据 备份 技术 和 可 徘 的 网 络 通信 可 以 实现 异地 灾难 备份 。 

(5) 维护 阶段 

开展 对 全 部 工作 人 员 的 灾难 备份 意识 培养 和 技能 培训 工作 。 制 定 合适 的 规章 制度 和 策 
略 ， 以 保证 各 个 部 门 之 间 的 协调 啊 应 。 

2. 需求 分 析 与 灾难 备份 委 略 

针对 灾难 备份 建设 的 需求 分 析 与 灾难 备份 策略 设计 ， 主 要 包含 以 下 几 个 步 又: 现状 分 
析 、 风 险 分 析 、 业 务 影响 分 析 和 灾难 备份 策略 选择 ， 如 图 9-29 所 示 。 
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图 9-29 需求 分 析 与 灾难 备份 策略 


(1) 现状 分 析 

现状 分 析 主 要 包括 对 应 用 系统 、 网 络 情况 和 数据 系统 的 分 析 。 

应 用 系统 的 分 析 主 要 包括 服务 器 部 区 环境 分 析 、 操 作 系 统 分 析 、 数 据 库 系 统 分 析 和 应 用 
关联 关系 分 析 等 内 容 。 其 中 服务 硕 部 署 环境 分 析 包 括 生产 中 心服 务 硕 系统 现状 分 析 (小 型 
机 服务 器 系统 、PC 服务 需 系 统 等 ) 、 生 产 中 心 存 储 系统 现状 分 析 (存储 系统 情况 、 生 产 数 
据 情 况 ) 、 数 据 备 份 情 况 等 。 数 据 系 统 分 析 是 对 各 个 业务 系统 的 数据 存储 情况 进行 分 析 。 

(2) 风险 分 析 

风险 分 析 需 要 对 数据 中 心 的 物理 环境 、 运 行 状况 进行 梳理 。 风 险 分 析 的 结果 可 以 作为 业 
务 连续 性 规划 的 工作 数据 。 

从 系统 可 徘 性 和 性 能 的 角度 识别 服务 器 、 操 作 和 系统、 数据库、 存储 和 网 络 的 风险 。 识 别 
可 能 造成 系统 中 断 的 各 种 风险 。 

根据 识别 出 来 的 风险 ， 判 断 是 否 在 用 户 能 够 接受 的 玫 围 之 内 。 对 于 不 能 接受 的 风险 ， 判 
呆 是 否 可 以 通过 技术 或 者 管理 手段 去 防范 和 控制 风险 。 同 时 提供 降低 风险 和 控制 风险 的 合理 
建议 。 

风险 分 析 工 作 的 流程 主要 包括 : 前 期 调研 、 问 卷 整 理 、 现 场 访谈 ， 以 及 撰写 及 提交 报 
告 ， 如 图 9-30 所 示 。 


前 期 调研 -各 关 此 理 国 





图 9-30 ”风险 分 析 工 作 的 流程 
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1 ) 前 期 调研 。 

主要 针对 业务 系统 进行 调研 ， 了 解 开 系统 的 架构 、 业 务 运 行情 况 和 应 用 系统 运行 情况 
等 内 容 ， 确 定 风 险 评 佑 的 应 用 范围 。 通 过 前 期 调研 ， 了 解 相 关 部 门 的 组 织 架 构 、 人 员 职 届 
等 ， 为 后 面 的 问卷 调研 做 好 准备 。 

2) 问卷 整理 。 

通过 对 用 户 管 理 现状 的 调研 ， 编 写 调 查 问 卷 ， 可 以 把 调查 问卷 内 容 分 成 以 下 几 个 部 分 : 
IT 系统 基础 架构 ， 开 发 和 和 运 维 管理 ， 基 础 设施 建设 ， 机 房管 理 等 。 针 对 相应 的 管理 人 员 和 
技术 人 员 进 行 访谈 ， 整 理 问卷 的 访谈 结果 ， 识 别管 理 过 程 中 存在 的 各 种 问题 ， 制 定 对 各 种 风 
险 的 分 类 和 定义 。 双 方 达成 一 致 。 

问卷 涉及 的 内 容 如 图 9-31 所 示 。 








IT 系统 
基础 架构 





图 9-31 问卷 涉及 的 内 容 


e IT 系统 基础 架构 

IT 系统 基础 架构 是 针对 IT 基础 架构 管理 设计 的 ， 问 卷 主要 偏重 于 主机 、 数 据 库 、 网 络 
和 各 种 存储 设备 等 。 该 问卷 的 目的 是 了 解 开 系统 基础 架构 和 运行 维护 方面 的 情况 。 

e 开发 和 运 维 管理 

问卷 主要 偏重 于 软件 染 构 的 灵活 性 、 安 全 性 、 可 用 性 和 可 徘 性 的 调研 ， 目 的 是 从 染 构 的 
角度 了 解 软 件 开发 的 部 署 、 运 维 管理 方面 的 情况 。 同 时 间 卷 也 倾向 于 服务 水 平 、 故 障 处理 、 
故障 分 类 等 领域 。 目 的 是 收集 在 过 去 运 维 过 程 中 发 生 的 各 类 安全 事件 等 信息 。 

e 基础 设施 建设 

基础 设施 建设 主要 是 针对 基础 设施 现状 和 运 维 能 力 而 设计 的 ， 问 卷 主 要 偏重 于 基础 设施 
的 建设 标准 、 运 行 现状 、 管 理 水 平和 运行 监控 等 能 力 的 调研 。 

e。 机 房管 理 

机 房管 理 主要 针对 机 房 基础 设施 管理 进行 调研 ， 包 括 机 房 的 运行 能 力 ， 目 的 是 收集 机 房 
运行 的 潜在 风险 和 曾经 发 生 的 各 类 安全 事故 。 

3 ) 现场 访谈 。 现 场 访谈 是 在 问卷 调研 的 基础 上 进行 的 ， 首 先 对 问卷 调研 结果 进行 初步 
整理 ， 确 定 访谈 的 策略 ， 然 后 总 结 访 谈 的 绪 有 末 ， 得 出 相关 系统 脆弱 性 的 列表 。 可 以 在 开 部 
门 范围 内 选择 技术 骨干 进行 访谈 和 交流 。 将 调研 结果 和 行业 标准 、 最 佳 实践 进行 比较 ， 把 握 
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企业 管理 水 平 的 现状 ， 为 降低 和 控制 信息 管理 风险 提供 可 行 的 意见 。 

4) 撰写 及 提交 报告 。 根 据 前 期 讨论 的 结果 ， 结 合 信息 管理 风险 的 评 佑 方法， 进行 风险 
识别 、 等 级 分 析 等 工作 。 同 时 ， 搜 写 风 险 评 佑 报告 ， 正 式 提 交 文 档 。 

(3) 业务 影响 分 析 

业务 影响 分 析 (Business Impact Analysis) ， 简 称 BIA。 瑞 国标 准 协会 制定 的 关于 业务 连 
续 性 管理 对 其 定义 为 “一 种 分 析 机 构 的 业务 功能 以 及 一 旦 业务 中 断 所 市 来 的 影响 的 过 程 ”。 
业务 影响 分 析 是 通过 调研 ， 分 析 信 息 系 统 事故 或 者 灾难 造成 业务 中 断 时 所 产生 的 影响 和 业务 
恢复 所 依赖 的 资源 ， 评 估 各 业务 功能 的 灾难 恢复 需求 ， 为 制定 灾难 恢复 策略 提供 依据 。 

业务 影响 分 析 的 流程 如 图 9-32 所 示 。 

















图 9-32 ”业务 影响 分 析 的 流程 


业务 影响 分 析 的 流程 是 首先 识别 组 织 业 务 活动 、 评 佑 中 断 造 成 的 影响 、 确 定 容 妨 中 断 时 
间 ， 然 后 确定 关键 业务 活动 及 恢复 优先 顺序 ， 识 别 关 键 活动 依赖 的 IT 资源 ， 确 定 目标 恢复 
时 间 、 恢 复 的 资源 ， 最 后 形成 业务 影响 分 析 报 告 。 

具体 的 业务 影响 分 析 实 施 步 又 如 图 9-33 所 示 ， 主 要 包括 前 期 沟通 、 调 研 问卷 、 培 训 、 
访谈 和 撰写 报告 。 调研 问卷 

1) 前 期 沟通 。 主 要 针对 业务 影响 分 析 的 
工作 内 容 和 方法 进行 沟通 ， 根 据 实 际 情况 ， 确 





定 业 务 影响 分 析 的 工作 范围 和 实施 方式 。 村 _ 
2) 调研 问卷 。 根 据 前 期 IT 现状 梳理 及 应 = 全 本 
用 关联 分 析 的 结果 ， 对 调研 问卷 进行 客户 化 修 业务 影响 分 析 


实施 步骤 





订 ， 以 方便 业务 人 员 能 够 准确 、 客 观 地 进行 

i 员 进行 2 方 谈 

3) 培训 。 对 业务 人 员 进 行业 务 影响 分 析 让 

问卷 填写 的 培训 ， 使 参与 实施 的 业务 部 门 了 解 图 9-33 ”业务 影响 分 析 实 施 步 又 
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实施 业务 影响 分 析 的 意义 。 

4) 访谈 。 各 业务 部 门 对 业务 影响 分 析 调 研 问卷 进行 填写 。 确 认 问 卷 填写 内 容 ， 了 解 补 
充 信 息 。 

5 ) 撰写 报告 。 根 据 调 研 收集 的 资料 ， 完 成 报告 初 稳 。 最 后 整理 出 业务 影响 分 析 报 告 。 

(4) 灾难 备份 策略 选择 

通过 业务 影响 分 析 ， 确 定 业 务 之 间 的 关键 功能 和 其 中 的 关键 点 ， 决 定 业 务 连 续 性 策略 和 
所 需 成 本 。 利 用 这 一 信息 ， 管 理 层 可 以 制订 出 合适 的 灾难 备份 策略 。 一 般 来 说 ， 典 型 的 灾难 
备份 中 心 策 略 包 括 : 系统 容 灾 的 等 级 和 灾难 备份 中 心 的 运行 模式 。 

关于 灾难 备份 策略 的 选择 ， 只 有 在 充分 调研 现状 的 基础 上 ， 制 定 符合 机 构 现 状 的 策略 ， 
实现 灾难 备份 系统 建设 的 真正 落地 ， 才 能 发 挥 出 应 有 的 价值 。 灾 难 备份 策略 选择 主要 包含 六 
个 级 别 : 

e 第 一 个 级 别 

每 周至 少 进行 一 次 数据 备份 ， 在 灾难 应 对 方面 ， 是 经 过 测试 和 演练 的 灾难 恢复 预案 。 

e 第 二 个 级 别 

在 满足 第 一 个 级 别 的 基础 上 ， 对 备用 数据 处 理 系统 和 网 络 系统 进行 定义 。 

e 第 三 个 级 别 

每 天 进行 一 次 完整 的 数据 备份 ， 利 用 网 络 进行 定时 的 数据 备份 传输 。 

e 第 四 个 级 别 

在 第 三 个 级 别 的 基础 上 上 ， 配 置 灾难 恢复 所 需 的 全 部 数据 处 理 设备 和 网 络 设 备 ， 并 且 处 于 
就 绪 状 态 。 

e 第 五 个 级 别 

要 求 数据 备份 系统 达到 实时 数据 传输 的 能 力 ， 灾 难 备 份 中 心 可 以 提供 7 x24 小 时 的 技术 
文 持 能 

e 第 六 个 级 别 

要 求 达 到 对 远程 数据 的 实时 备份 ， 达 到 零 数据 丢失 。 

3. 灾难 备份 方案 设计 

为 了 提高 风险 管理 能 力 ， 需 要 建立 符合 国际 标准 的 业务 连续 性 保障 体系 ， 主 要 包括 需求 
分 析 、 灾 难 识 别 、 灾 难 备 份 启动 、 灾 难 备份 恢复 和 灾难 备份 切换 演练 。 通 过 “两 地 三 中 心 ” 
的 规划 布局 ， 保 障 核心 数据 的 安全 和 业务 的 连续 性 。 

完成 生产 中 心 灾难 备份 系统 的 建设 ,使 生产 中 心 具 备 较 强 的 防 灾 、 抗 灾 能 力 ， 以 避免 因 
为 意外 灾难 引起 的 不 良 后 果 ， 大 大 减少 损失 。 

下 面 讲解 主要 从 几 个 方面 进行 灾难 备份 体系 的 建设 ， 如 图 9-34 所 示 ， 包 括 灾 难 接管 和 恢 
复 、 应 用 处 理 能 力 、 数 据 备份 与 数据 复制 、 网 络 备 份 系统 和 “两 地 三 中 心 ”建设 总 体 方案 等 。 

其 中 “两 地 三 中 心 ” 建 设 总 体 方案 的 目的 是 保证 数据 仓库 系统 的 抗灾 能 力 ， 系 统 可 以 快 
速 恢 复 ， 如 图 9-35 所 示 。 

灾难 备份 系统 建设 的 流程 如 图 9-36 所 示 ， 包 括 规划 设计 阶段 、 实 施 阶段 和 运营 管理 
阶段 。 

e 规划 设计 阶段 

规划 设计 阶段 主要 包括 灾难 备份 需求 分 析 、 灾 难 备份 建设 规划 、 技 术 方 案 设 计 等 内 容 。 
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应 用 处 理 能 数据 备份 与 数据 复制 





灾难 接管 和 人 4 \ 统 
两 地 三 中 DY” 建设 总 体 方案 
图 9-34 生产 中 心 灾 难 备 份 系统 的 建设 


生产 中 心 同城 灾难 备份 中 心 异地 灾难 备份 中 心 





异步 复制 站 


er 





同城 复制 
图 9-35 “两 地 三 中 心 ” 总 体 建设 方案 








A 规划 设计 阶段 


图 9-36 灾难 备份 系统 建设 的 流程 


e 实施 阶段 

实施 阶段 主要 包括 灾难 备份 中 心 的 建设 、 灾 难 备份 中 心 运营 管理 体系 的 建设 、 灾 难 备 份 
系统 的 验证 等 内 容 。 

e 运营 管理 阶段 

运营 管理 阶段 主要 包括 异地 灾难 备份 系统 日 常 运营 管理 、 灾 难 备份 系统 切换 、 生 产 运 行 管理 
等 内 容 。 

4. 灾难 备份 应 急 预 案 与 灾难 备份 演练 

(1) 灾难 备份 应 急 预 案 

灾难 备份 应 急 预 案 是 在 数据 仓库 系统 灾难 发 生 之 前 ， 建 立 相应 的 灾难 恢复 组 织 并 制定 相 
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关 人 员 职 责 。 这 样 可 以 确保 灾难 备份 运行 规范 。 
例如 ， 当 应 用 系统 故障 ， 存 储 系统 故障 ， 人 为 错误 ， 网 络 故 障 ， 水 灾 、 火 灾 、 地 震 等 灾 
难 ( 见 图 9-37) 发 生 时 ， 知道 如 何 进行 应 急 处 理 。 


存储 系统 故障 


应 用 系统 故障 





[1] 自 


水 灾 、 火 灾 、 地 震 等 灾难 2 网 络 故 障 


图 9-37 不同 故障 、 错 误 或 灾难 发 生 时 均 有 灾难 备份 应 急 预 案 

1) 应 用 系统 故障 。 当 应 用 系统 发 生 故障 时 ， 可 以 采用 双 机 热 备 的 方式 进行 切换 。 

2) 存储 系统 故障 。 当 存储 系统 发 生 故 障 时 ， 可 暂时 采用 本 地 存储 替代 生产 系统 。 

3) 人 为 错误 。 可 以 通过 提取 本 地 数据 库 快照 ， 将 数据 恢复 到 灾难 时 间 点 前 。 

4) 网 络 故 障 。 当 生产 中 心 的 网 络 发 生 故 障 时 ， 通 过 设备 见 余 解决 该 问题 。 

5) 水 灾 、 火 灾 、 地 晨 等 灾难 。 当 水 灾 、 火 灾 、 地 震 等 灾难 发 生 时 ， 通 过 重新 部 署 硬 件 
设施 ， 利 用 灾难 备份 中 心 的 业务 数据 ， 在 短 时 间 内 恢复 生产 。 

(2) 灾难 备份 演练 

根据 数据 仓库 系统 灾难 备份 技术 方案 ， 对 灾难 备份 演练 涉及 的 部 门 、 人 员 ， 系 统 范围 ， 
演练 步骤 ， 进 度 安排 ， 防 范 措 施 等 内 容 提 出 建议 。 灾 难 备份 演练 需要 制定 灾难 备份 演练 计 
划 ， 实 施 容 灾 技 术 切 换 演 练 ， 对 演练 工作 进行 总 结 和 评估 。 最 后 ， 针 对 演练 过 程 中 的 问题 提 
出 改进 建议 。 

当 演练 结束 后 ， 需 要 对 相关 预案 及 操作 手册 进行 完善 。 

灾难 备份 演练 可 以 有 以 下 两 种 场景 . 

1) 当 生 产 中 心 发 生火 灾 、 数 据 丢 失 等 事件 时 ， 会 造成 系统 中 断 。 这 时 可 以 直接 启用 同 
城 灾 难 备份 中 心 。 例 如 ， 当 灾难 发 生 后 ， 生 产 中 心 数 据 遭 到 损坏 ， 造 成 系统 不 可 用 ， 业 务 中 
断 ， 直 接 启 用 同城 灾难 备份 中 心 接管 生产 。 

2) 当 生 产 中 心 系统 恢复 后 ， 回 切 生 产 中 
心 ， 继 续 业 务 运 行 。 
























5. 灾难 备份 中 心 建设 基础 设施 建设 

数据 仓库 系统 灾难 备份 中 心 的 建设 主要 包 a : 
括 基础 设施 建设 、 人 员 组织 机 构建 设 、 运 维 管 8%065 900 
理 体系 建设 ， 如 图 9-38 所 示 。 SS Ts 

(1) 基础 设施 建设 2 | 出 

生产 中 心 和 灾难 备份 中 心 应 该 保持 一 定 的 WV | 
距离 ， 同 时 应 该 保证 电力 供给 的 可 靠 性 及 交通 is 


的 便捷 性 ， 远 离 火 灾 隐 患 和 地 质 、 地 震 灾 害 的 。” 图 9-38 数据 仓库 系统 灾难 备份 中 心 的 建设 
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高 发 区 域 。 关 于 灾难 备份 中 心 的 选 址 ， 应 该 考虑 以 下 几 种 因素 : 地 理 位 置 、 配 套 的 设施 、 人 
力 资 源 条 件 、 地 区 政策 、 周 边 环 境 、 建 设 和 运营 的 成 本 ， 如 图 9-39 所 示 。 


配套 的 设施 


人 力 资源 条 件 








地 区 政策 


图 9-39 ”基础 设施 建设 


1) 地 理 位 置 。 应 该 选择 远离 地 震 、 台 风 、 洪 水 等 日 然 灾 害 频 发 地 区 ， 气 候 条 件 要 舒适 
稳定 ， 环 境 要 清 滞 ， 交 通 也 要 方便 。 

2) 配套 的 设施 。 配 套 的 设施 主要 是 指 当 地 的 经 济 发 展 水 平 、 交 通 便 利 条 件 、 人 力 资 源 
供应 每 方面 。 灾 难 备 份 中 心 对 各 种 社会 资源 的 要 求 痢 非 肖 局 。 

3) 人 力 资 源 条 件 。 人 力 资 源 条 件 主要 是 指 当 地 的 科技 文化 水 平 、 人 力 资 源 是 否 充足 等 
方面 。 

4) 地 区 政策 。 地 区 政策 主要 是 当地 政府 提供 的 政策 。 

5) 周边 环境 。 所 在 地 的 周边 环境 条 件 。 选 址 时 应 避 开 生产 或 存储 易 爆 物产 品 的 工厂 、 
仓库 等 ， 近 离 高 速 路 、 铁 路 等 ， 避 人 免 震 动 对 于 主机 的 影 啊 。 

6) 建设 和 运营 的 成 本 。 成 本 是 一 个 需要 反复 权衡 的 因素 。 成 本 一 般 涉 及 当地 的 土地 价 
格 、 房 屋 建筑 价格 、 通 信 费 用 、 用 电价 格 和 人 力 成 本 等 多 种 因素 。 

(2) 人 员 组 织 机 构建 设 

人 员 组 织 机 构建 设 主 要 是 指 建 立 或 设立 项 目 领导 小 组 、 项 目 技术 委员 会 、 项 目 经 理 、 项 
目 管 理 组 、 项 目 实施 组 和 项 目 文 持 组 。 

。 项 目 领导 小 组 。 

人 员 构 成 : 由 项 目 负责 人 和 客户 项 目 负 贡 人 组 成 。 

具体 职责 : 协调 项 目 参与 方 与 客户 相关 部 门 的 关系 ， 协 调解 决 各 方 的 重大 争议 ， 协 调 项 
目 与 厂商 的 合作 关系 。 审 核 项 目的 总 体 方案 和 实施 计划 等 。 对 项 目的 进度 、 质 量 状况 和 风险 
等 进行 宏观 调控 ， 对 项 目的 各 个 方面 进行 管理 ， 协 调用 户 内 部 、 各 上 广 商 及 合作 伙伴 之 间 的 天 
系 。 制 定 计划 ， 明 确 分 工 责 任 等 。 

。 项 目 技术 委员 会 。 

人 员 构 成 : 由 技术 专家 组 成 。 

具体 职责 : 技术 专家 主要 负责 项 目 总 体 技术 的 把 天 ， 以 及 解决 重大 技术 问题 。 

e。 项 目 经 理 。 

人 员 构 成 : 项 目 管理 人 员 。 

具体 职责 : 负责 项 目的 组 织 、 管 理 和 协调 ; 制定 项 目 实 施 方案 和 计划 ; 协调 项 目 成 员 与 
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用 户 人 员 之 间 的 工作 关系 ; 负责 监督 项 目的 具体 实施 ， 安 排 各 阶段 工作 任务 ; 负责 向 项 目 领 
导 小 组 汇报 项 目 进展 情况 。 

e 项 目 管 理 组 。 

人 员 构 成 : 由 项 目 质量 管理 人 员 组 成 。 

具体 职责 : 作为 项 目的 质量 保障 机 构 ， 负 责 制 定 质量 标准 和 计划 等 ， 参 与 项 目的 实施 ， 
负责 监督 项 目的 实施 过 程 ， 并 在 发 现 问题 后 进行 处 理 和 改进 。 

。 项 目 实施 组 。 

人 员 构 成 : 由 项 目 实 施 人 员 组 成 。 

具体 职责 : 负责 软 便 件 设备 的 安装 、 调 试 。 汇 报 项目 各 阶段 的 进展 情况 和 存在 的 问题 
等 。 人 负责 对 用 户 运 营 维 护 人 员 的 技术 培训 。 

e 项 目 文 持 组 。 

人 员 构 成 : 由 技术 专家 组 成 。 




















具体 职责 : 负责 系统 规划 和 项 目 实施 的 审核 工作 。 为 项 目 实施 组 提供 技术 文 持 。 负 责 解 
答 用 户 的 专业 技术 问题 。 


(3) 运 维 管理 体系 建设 

数据 仓库 系统 运 维 服务 管理 对 象 包括 基础 设施 、 应 用 系统 、 用 户 、 运 维 部 门 及 供应 商 。 
具体 内 容 如 下 . 

e 基础 设施 

主要 包括 网 络 、 主 机 系统 、 存 储 和 备份 系统 、 安 全 系统 等 。 
e 应 用 系统 

主要 包括 办 公 系 统 、 门 户 网 站 等 应 用 系统 。 

e 用 户 

主要 包括 使 用 产品 或 服务 的 一 方 和 产品 或 服务 的 购买 者 。 
e 供应 商 

主要 包括 基础 设施 、 应 用 系统 和 开 运 维 的 供应 商 。 

e 运 维 部 门 

主要 包括 参与 运 维 活动 的 相关 部 门 和 人 员 。 





9.3 商业 银行 数据 仓库 的 建设 规划 


9.3.1 商业 银行 数据 仓库 建设 概况 和 瓶 及 


2000 年 以 后 ， 多 数 商 业 银 行者 在 建设 数据 仓库 ， 经 过 前 期 的 数据 积累 ， 数 据 质量 的 提 
升 ， 数 据 仓 库 建 设 成 功率 较 高 。 

商业 银行 数据 仓库 的 建设 一 般 都 采用 分 阶段 建设 的 策略 。 

第 一 阶段 ， 基 本 实现 对 数据 的 集中 处 理 ， 特 别 是 对 内 部 重要 报表 系统 提供 数据 文 持 。 

第 二 阶段 ， 进 一 步 实施 诸如 资产 负 俩 管理 、 客 户 关 系 管 理 或 者 茶 些 灵活 报表 查询 等 较为 
复杂 的 管理 分 析 类 应 用 。 

第 三 阶段 是 在 第 二 阶段 的 基础 上 ， 实 施 数 据 挖掘 分 析 、 商 业 智能 等 应 用 。 
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对 于 商业 银行 来 说 ， 建 设 数据 仓库 是 基本 功 ， 和 缺点 是 实施 的 周期 较 长 ， 统 一 标准 困难 ， 
见效 慢 ， 是 一 个 典型 的 高 投入 和 慢 回 报 的 建设 项 目 。 

但 是 随 着 时 间 的 流逝 ， 建 设 数 据 仓 库 或 者 不 建设 数据 仓库 给 商业 银行 的 发 展 带 来 了 不 同 
的 影响 。 人 例如， 如果 某 些 商业 银行 在 5 年 前 或 者 10 年 前 就 开始 重视 数据 仓库 的 建设 ， 比 那 
些 不 重视 数据 仓库 建设 的 商业 银行 发 展 态势 要 好 很 多 。 也 就 是 说 ， 后 期 投入 的 成 本 就 越 高 。 

一 些 商业 银行 在 建设 数据 仓库 时 面临 很 多 的 困难 ， 例 如 很 多 银行 为 每 一 个 应 用 系统 建设 
数据 库 ， 当 多 个 应 用 系统 建设 完成 之 后 ， 增 加 了 数据 管理 的 难度 。 因 为 数据 标准 不 统一 ， 所 
以 整合 难以 实现 。 

举例 来 说 ， 客 户 使 用 银行 服务 的 渠道 很 多 ， 除 了 传统 的 营业 网 点 ， 还 包括 网 上 银行 、 手 机 
银行 等 渠道 ， 这 会 导致 同一 个 客户 可 能 会 拥有 多 个 账户 信息 ， 那 么 识别 唯一 客户 需要 大 量 的 数 
据 整 合 和 集成 工作 。 如 果 不 能 对 客户 信息 进行 唯一 识别 ， 就 很 难 进行 商业 智能 分 析 。 

目前 商业 银行 数据 仓库 面临 很 多 瓶颈 ， 包 括 业 务 价 值 、 系 统 性 能 、 数 据 质 量 和 后 续 运 维 
等 ， 如 图 9-40 所 示 。 








业务 价值 








数据 质量 \ 1 后 续 运 维 








图 9-40 目前 商业 银行 数据 仓库 面临 的 瓶颈 

(1 ) 业务 价值 

对 于 大 部 分 的 商业 银行 来 说 ， 数 据 仓库 基本 上 停留 在 业务 报表 和 供 数 层面 上 ， 业 务 价值 
体现 得 不 够 充分 。 商 业 银 行 有 大 量 的 数据 ， 有 的 银行 也 做 了 很 多 的 数据 分 析 ， 但 是 没有 把 业 
务 分 析 结 采 转 换 为 业务 行动 。 国 外 很 多 银行 都 会 把 分 析 结 采 转 变 成 业务 规则 或 者 业务 事件 ， 
然后 和 银行 的 业务 系统 灶 合 到 一 起 ， 最 终 形成 一 个 财 环 结构 。 国 内 商业 银行 的 局 端 分 析 应 用 
不 多 ， 也 就 是 没有 把 对 业务 的 分 析 结 果 转 换 为 业务 行动 。 

(2) 系统 性 能 

对 于 商业 银行 来 说 ， 如 采 数 据 仓 库 系 统 的 数据 链 路 过 长 ， 例 如 数据 从 核心 业务 系统 加 载 
下 来 ， 然 后 再 通过 交换 系统 、 绥 冲 区 ， 经 过 ETL 加 工 ， 最 后 到 应 用 系统 。 这 种 方式 必须 考 
虑 数据 的 混合 负载 ， 也 就 是 数据 加 载 、 数 据 加 工 和 前 端 访 问 同 时 进行 ， 可 以 进行 批量 加 载 和 
实时 加 载 。 这 种 工作 负载 是 混合 的 ， 需 要 重点 考虑 资源 的 分 配 问 题 。 

(3) 效 据 质量 

对 于 大 部 分 商业 银行 来 说 ， 基 本 上 都 是 先 有 数据 仓库 ， 然 后 才 进 行 数据 标准 的 建设 ， 这 
样 会 导致 数据 标准 很 难 在 数据 仓库 中 落地 。 大 部 分 商业 银行 实行 了 数据 质量 检查 程序 ， 对 数 
据 仓 库 的 上 游 、 中 游 和 下 游 进行 全 生命 周期 的 质量 省 理 ， 但 是 对 于 前 台 业 务 系统 ， 也 可 能 
数据 质量 问题 ， 所 以 需要 统一 起 来 。 
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(4) 后 续 运 维 

当 数 据 仓 库 建 好 之 后 ， 每 天 都 在 加 载 数据 ， 模 型 也 在 不 断 扩 充 ， 如 果 有 新 的 数据 源 加 进 
来 ， 模 型 就 需要 变化 ，ETL 程序 也 需要 修改 ， 这 样 维护 的 工作 量 非 党 大 。 同 时 还 需要 考虑 数 
据 目 助 服务 ， 开 放 数 据 接口 ， 也 就 是 业务 人 员 通 过 接口 自助 服务 ， 临 时 取 数 。 但 是 一 般 来 
膏 ， 这 种 灵活 查询 不 能 全 部 开放 ， 因 为 数据 仓库 的 数据 量 非 常 巨 大 ， 有 可 能 一 个 查询 会 影响 
整个 数据 仓库 系统 ， 对 于 开放 的 查询 只 能 开放 一 些 汇总 数据 层 的 数据 。 而 关于 明细 的 基础 数 
据 层 、 交 易 层 的 数据 是 不 能 开放 的 。 


9.3.2 商业 银行 数据 仓库 建设 面临 的 问题 和 改进 建议 


我 们 从 4 个 维度 〈 架 构 、 模 型 、 管 理 、 应 用 ) 说 明 商 业 银 行 的 数据 仓库 建设 存在 哪些 
问题 ， 如 图 9-41 所 示 。 

一 般 来 说 ， 很 多 商业 银行 的 数据 仓库 架构 
面临 的 较 大 问题 是 数据 链 路 过 长 ， 架 构 的 灵活 
度 不 够 ， 系 统 在 高 可 用 性 上 还 处 于 较 低 的 水 
平 ， 模 型 的 稳定 性 不 够 ， 同 时 语义 层 不 丰富 。 
在 管理 上 ， 多 数 商 业 银 行 对 管理 一 个 越 来 越 庞 
大 的 数据 仓库 系统 经 验 不足 ， 在 元 数据 管理 和 
数据 质量 管理 上 都 有 改进 的 空间 ， 同 时 在 数据 
se i 如 何 管理 

私 部 门 之 间 的 使 用 已 经 成 为 了 一 大 难题 。 在 应 ”图 9-41 4 个 维度 ( 淋 构 、 模 型 、 管 理 、 应 用 ) 
商业 银行 对 数据 仓库 的 建设 多 采用 传统 的 OLTP 应 用 的 开发 、 测 试 方法 ， 效 率 较 低 。 

下 面 针对 这 4 个 方面 的 问题 ， 分 别提 出 改进 的 建议 。 

首先 ， 对 于 架构 上 的 问题 ， 可 以 缩短 信息 链 路 ， 或 部 署 沙 盒 ， 执 行 一 些 具有 高 可 用 性 特 


























其 次 ， 对 于 模型 上 的 问题 ， 可 以 进行 相应 的 模型 优化 ， 同 时 要 求 数 据 仓 库 的 上 游 系 统 提 
高 稳定 性 ， 完 善 数据 仓库 的 语义 层 。 

青 次 ， 对 于 管理 上 的 问题 ， 可 以 信 鉴 同行 业 的 先进 经 验 或 者 海内 外 先进 经 验 ， 同 时 也 可 
以 升级 元 数据 管理 系统 和 数据 质量 管理 系统 。 为 了 保证 在 数据 仓库 的 基础 上 ， 各 个 部 门 之 间 
的 管理 和 协作 ， 应 该 制定 数据 仓库 开发 规范 ， 并 且 严 格 执行 ， 同 时 制定 部 门 接 入 数据 仓库 的 
准 入 制度 。 

最 后 ， 对 于 数据 仓库 应 用 上 的 问题 ， 应 该 对 现 有 的 开发 、 测 试 方法 进行 创新 ， 增 强 对 有 灵 
活 碍 询 的 文 持 ， 同 时 需要 人 敏捷 开发 。 


9.3.3 商业 银行 数据 仓库 建设 思路 及 系统 情况 


1. 商业 银行 建设 数据 仓库 时 过 到 的 挑战 
商业 银行 建设 数据 仓库 时 遇 到 的 挑战 主要 包括 高 可 用 性 、 组 织 架 构 、 数 据 质 量 和 性 能 / 
数据 延迟 性 ， 如 图 9-42 所 示 。 
(1) 高 可 用 性 
在 单一 物理 环境 中 集中 了 数据 缓存 、O0DS、 数 据 仓 库 和 数据 集 市， 这 样 会 严重 影 啊 系统 
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的 高 可 用 性 ， 同 时 会 引发 一 系列 关于 性 能 、 可 扩展 性 和 可 维 


护 性 等 问题 。 
因为 缺乏 对 负载 的 管理 或 者 是 相关 政策 实施 监管 不 到 位 ， 组 织 


所 以 造成 了 资源 的 相互 争 村 ， 使 得 系统 不 能 提供 很 好 的 服务 。 
(2) 数据 质量 








由 于 如 采 效 据 仓 库 中 存在 大 量 的 不 一 致 的 数据 和 元 余 的 
数据 ， 则 对 于 数据 质量 的 维护 来 说 是 非常 和 被动 的 ， 所 以 应 该 
保证 数据 仓库 中 的 数据 都 是 有 用 的 。 人 滞 


(3) 组 织 架 构 

很 多 商业 银行 缺少 与 数据 治理 相关 的 人 员 角 色 和 岗位 ， 
不 能 保证 业务 部 门 和 开 部 门 的 目标 是 一 致 的 ， 导 致 数据 仓库 ”图 9-42 商业 银行 建设 数据 
的 建设 缺乏 长 远 的 、 与 商业 银行 的 业务 战略 一 致 的 规划 。 仓库 时 遇 到 的 挑战 

(4) 性 能 /数据 延迟 性 

对 于 很 多 商业 银行 的 数据 仓库 来 说 ,查询 的 并 发 度 是 一 个 很 大 的 挑战 ， 多 用 户 使 用 数据 
仓库 运行 的 报表 或 者 是 即席 查询 的 时 候 ， 系 统 很 难 进行 扩展 和 对 负载 进行 优先 级 的 处 理 。 

2. 商业 银行 数据 仓库 架构 问题 及 案例 分 析 

(1) 第 一 个 案例 

商业 银行 在 建设 数据 仓库 的 时 候 ， 可 能 会 存在 其 他 某 商 业 银 行 的 数据 仓库 架构 问题 ， 下 
面 分 析 一 下 对 这 类 数据 仓库 有 哪些 可 以 改进 的 地 方 ， 如 图 9-43 所 示 。 




















数据 源 数据 集 市 








图 9-43 某 商 业 银 行 的 数据 仓库 架构 


现状 ， 

该 商业 银行 的 业务 系统 每 天 将 文件 放 和 人 到 数据 仓库 中 ， 如 今 的 数据 仓库 在 压缩 前 存放 郑 
大 约 80TB 的 数据 ， 压 缩 后 有 45TB， 日 增 量 大 概 有 300 ~ 400GB， 在 峰值 时 可 能 会 有 800 ~ 
900GB 的 数据 。 

需要 优化 的 地 方 ， 

整体 的 数据 架构 需要 优化 ， 面 临 着 数据 如 何 迁 移 ， 缺 少 统 一 的 数据 管控 体系 ， 缺 乏 大 数 
据 处 理 机 制 ， 数 据 模型 没有 统一 规划 等 很 多 问题 。 
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在 核心 银行 业务 系统 加 数据 仓库 传送 文件 的 过 程 中 缺少 文件 交换 平 合 ， 文 件 被 直接 送信 
到 数据 仓库 中 ， 缺 少数 据 缓冲 区 。 因 为 业务 系统 与 数据 仓库 之 间 缺 少 缓冲 区 ， 这 意味 春 数据 
仓库 缺少 了 一 道 屏障 。 

首先 ， 因 为 数据 仓库 存储 春 大 量 的 历史 数据 ， 同 时 为 多 个 应 用 提供 服务 ， 所 以 系统 
的 效率 可 能 是 个 瓶颈 ， 如 果 再 与 多 个 业务 系统 建立 连接 ,会 大 大 降低 数据 仓库 系统 的 
局 效 性 。 

其 人 次， 缓冲 区 相当 于 数据 进入 到 数据 仓库 系统 的 一 起 闸门 ， 很 多 事情 可 以 在 缓冲 区 有 宛 
成 。 例 如 ， 对 数据 质量 的 校 验 ， 对 “垃圾 ”数据 的 “清洗 ”， 目 的 是 保证 数据 的 一 致 性 和 正 
确 性 。 然 后 从 绥 冲 区 中 将 数据 迁移 至 数据 仓库 ,保证 流 到 数据 仓库 的 数据 部 是 高 质量 的 
数据 。 

最 后 ， 数 据 仓库 面 对 的 是 数据 缓冲 区 这 唯一 的 数据 源 ， 把 该 缓冲 区 当 作 唯 一 可 信 的 数据 
源 ， 只 需要 建立 一 个 连接 即 可 ， 会 大 大 提高 数据 仓库 系统 的 性 能 。 

同时 该 系统 缺乏 库 内 集 市 和 库 外 集 市 的 合理 规划 ， 根 据 性 能 的 要 求 ， 应 用 可 以 分 成 库 外 
数据 集 市 和 库 内 数据 集 市 。 划 分 的 原则 是 需要 考虑 性 能 问题 ， 如 果 数 据 访 问 量 很 大 ， 计 算 复 
杂 ， 则 需要 用 库 外 数据 集 市 ， 如 打 访 问 量 小 ， 计 算 简 单 ， 则 考虑 库 内 数据 集 市 。 

(2) 第 二 个 案例 

下 面 看 一 下 菏 商 业 银 行 的 数据 仓库 数据 染 构 ， 如 图 9-44 所 示 。 


数据 准备 区 数据 仓库 区 
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平台 





















































图 9-44 茶 商 业 银 行 的 数据 仓库 数据 染 构 


现状 
从 主机 对 公 系 统 、 主 机 个 人 系统 和 开放 平台 ， 每 天 通过 文件 传输 平台 ， 到 ETL 服务 上 可， 
数据 通过 解压 、 压 缩 ， 每 天 传输 的 数据 量 是 450GB， 先 放 入 临时 区 (该 临时 区 一 般 只 存储 
一 周 的 数据 )。 该 临时 区 的 数据 是 为 了 做 数据 加 工 准备 的 ， 是 贴 数据 源 的。 从 临时 区 出 来 分 
了 两 条 路 径 ， 所 谓 的 数据 集成 平台 相当 于 ODS 系统 。 如 果 应 用 是 不 跨 系统 的 ， 同 时 要 求 数 
据 的 时 效 性 高 ， 则 该 应 用 从 数据 集成 平台 中 取 数 据 ; 如 采 该 应 用 要 求 路 系统 取 数 ， 但 是 要 求 
的 时 将 性 不 高 ， 则 该 应 用 从 企业 级 的 数据 仓库 中 取 数 据 。 
企业 级 的 数据 仓库 分 成 基础 数据 层 、 汇 总 数据 层 。 针 对 数据 仓库 的 应 用 也 可 以 分 成 库 外 
的 数据 集 市 和 库 内 的 数据 集 市 ， 原 则 是 考虑 性 能 的 问题 。 如 采 数 据 访问 量 很 大 ， 要 求 的 时 效 
性 高 ， 则 需要 考虑 库 外 的 数据 集 市 。 如 果 数 据 访问 量 小 ， 则 可 以 考虑 使 用 库 内 的 数据 集 市 ， 
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也 就 是 在 数据 仓库 内 做 视图 。 

需要 优化 的 地 方 

该 商业 银行 的 数据 仓库 逻辑 染 构 存在 问题 ， 例 如 时 间 窗 口 过 长 ， 也 就 是 数据 的 链 路 太 
长 。 解 决 的 办 法 是 通过 主机 直接 连 到 数据 集成 平台 ， 可 以 通过 产品 实现 。 在 时 间 调 度 上 ， 如 
末 东 个 业务 的 数据 很 快 加 载 完了 ， 就 可 以 和 匈 提 供 访问 ， 不 需要 等 所 有 的 业务 全 部 加 载 完 之 后 
再 提供 数据 访问 。 可 以 通过 ETL 将 业务 之 间 的 相互 天 系 拆 开 ， 在 没有 相互 依赖 的 情况 下 ， 
菏 个 业务 的 数据 加 载 完 之 后 就 可 以 提供 访问 了 。 

3. 对 商业 银行 数据 仓库 目标 数据 架构 的 建议 

对 于 数据 仓库 的 日 标 数 据 染 构 ， 可 以 提供 以 下 建议 ， 如 图 9-45 所 示 。 





源 数据 层 数据 交换 平台 数据 服务 层 应 用 层 














图 9-45 ”数据 仓库 的 目标 数据 染 构 


1) 在 数据 源 层 和 数据 服务 层 之 间 建 立 一 个 数据 交换 平台 。 数 据 服务 层 内 部 的 数据 流动 
和 数据 交换 都 通过 数据 交换 平台 。0ODS 相当 于 数据 的 集成 平台 ， 存 储 的 都 是 实时 性 的 数据 ， 
而 数据 仓库 存储 的 都 是 历史 数据 。 

2) 数据 仓库 可 以 分 成 数据 基础 区 、 数 据 汇 总 区 和 集 市 区 。 

3) 数据 沙盘 的 使 用 。 如 果 某 个 应 用 从 数据 源 层 通过 数据 交换 平台 到 ODS， 到 数据 仓库 
层 ， 再 到 数据 集 市 层 ， 可 能 数据 的 链 路 过 长 ， 从 而 影响 应 用 的 时 将 性 ， 这 样 就 可 以 建立 一 个 
数据 沙盘 ， 可 以 直接 从 0DS 取 数 ， 或 者 从 数据 仓库 、 数 据 集 市 中 取出 数据 ， 当 稳定 和 固化 
后 ， 再 把 应 用 挪 到 ODS 或 者 数据 仓库 、 数 据 集 市 中 。 

4) 所 有 的 数据 流动 都 有 统一 的 调度 工具 进行 调度 。 

5) 同时 建立 对 数据 的 分 布 和 流转 的 管控 ， 包 括 元 数据 管理 、 数 据 质量 管理 、 数 据 标准 
管理 和 数据 生命 周期 管理 等 内 容 。 

关于 商业 银行 数据 仓库 的 目标 数据 架构 ， 主 要 包括 源 数据 层 、 数 据 交换 平台 、 数 据 服 务 
层 、 应 用 层 。 源 数据 层 对 于 各 个 OLTP 生产 系统 ， 如 一 些 核心 业务 系统 等 ， 时 效 性 要 求 较 
高 ， 一 般 只 存储 生产 数据 ， 不 存储 历史 数据 。 它 一 般 作 为 数据 仓库 的 主要 数据 来 源 。 源 数据 
层 还 可 能 包括 文件 系统 、Web 等 非 结构 化 数据 源 。 
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数据 服务 层 为 数据 仓库 所 在 层 ， 通 过 对 历史 细节 数据 的 存储 和 汇总 数据 的 加 工 ， 文 持 后 
续 的 应 用 。 数 据 服务 层 结合 业务 的 需要 可 以 设计 成 库 内 集 市 或 者 库 外 集 市 。 

应 用 层 将 数据 服务 层 加 工 出 的 数据 ， 通 过 静态 报表 、 动 态 OLAP 等 处 理 方式 提供 给 
js 
9.3.4 商业 银行 数据 仓库 建 变局 示 


对 于 大 多 数 商业 银行 来 说 ， 数 据 仓库 的 建设 不 是 一 跃 而 就 的 ， 一 般 是 分 阶段 、 分 期 实施 
的 ， 然 后 逐步 建设 数据 仓库 的 模型 ， 最 后 对 应 用 形成 支持 。 在 数据 仓库 的 建设 过 程 中 ， 需 要 
业务 部 门 主导 及 深入 参与 ， 深 入 发 据 和 分 析 业 务 管理 方面 的 需求 ， 并 有 旦 建立 相应 的 数据 管控 
体系 。 同 时 需要 团队 培养 和 知识 积累 等 工作 。 

如 图 9-46 所 示 ， 首 先 启 动 数据 仓库 的 建设 ， 由 业务 部 门 主导 及 深入 参与 ， 然 后 将 数据 
仓库 的 建设 和 数据 管控 的 工作 结合 起 来 ， 最 后 分 期 、 分 阶段 地 进行 建设 ， 同 时 注重 团队 
培养 。 









































。 分 阶段 进行 建设 ,注重 团队 培养 
步骤 3 
。 将 数据 仓库 建设 与 数据 管控 工作 结合 起 来 








。 业务 部 门 主导 及 诬 入 参与 


。 启动 数据 仓库 建设 





图 9-46 商业 银行 数据 仓库 建设 启示 


1) 根据 银行 业务 运 彰 、 客 户 关 系 管理 、 货 产 负债 管理 和 决策 分 析 等 需求 ， 在 合适 的 阶 
段 局 动 数据 仓库 项 目的 建设 。 

很 多 商业 银行 为 了 满足 多 方面 的 知 求 ， 例 如 风险 管 理 、 绩 效 管理 或 者 监管 合 规 等 多 
方面 的 要 求 ， 在 核心 业务 系统 数据 集中 和 建立 统一 数据 源 之 后 ， 启 动 企业 级 数据 仓库 的 
建设 。 

在 业务 数据 量 相对 较 小 的 时 候 局 动 数据 仓库 项 目的 建设 ， 可 以 降低 数据 仓库 系统 建设 的 
难度 和 风险 ， 能 够 尽快 体现 出 数据 仓库 的 价值 。 

2) 数据 仓库 的 建设 需要 业务 部 门 主导 及 深入 参与 。 

对 于 商业 银行 来 次 ， 数 据 仓 库 的 工作 需要 业务 部 门人 员 的 广泛 参与 ， 并 且 由 业务 部 门 牵 
头发 起 数据 仓库 的 建设 ,深入 挖掘 和 分 析 业 务 管理 方面 的 需求 ， 从 而 指导 数据 仓库 模型 的 设 
计 等 核心 工作 。 

数据 的 集中 过 程 也 需要 业务 部 门 的 参与 ， 包 括 完 成 数据 的 清洗 和 整合 工作 ， 在 此 基础 
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上 ,深入 挖掘 信息 ， 有 效 发 挥 数 据 仓 库 的 价值 。 

3 ) 将 数据 仓库 建设 与 数据 管控 工作 结合 起 来 。 

对 于 商业 银行 来 说 ， 数 据 标准 为 数据 仓库 提供 统一 的 定义 ， 它 是 数据 仓库 的 重要 基础 ， 
如 末 先 进行 数据 仓库 的 建设 ,后 期 再 进行 数据 标准 的 建设 ,会 对 数据 仓库 的 建设 种 来 一 定 的 
负面 影响 。 数 据 仓 库 的 建设 需要 与 数据 管控 结合 起 来 ， 这 样 会 有 效 提升 数据 仓库 的 数据 质 
量 ， 从 而 保障 数据 的 可 信 度 。 

4) 分 阶段 进行 建设 ， 注 重 团 队 培 养 

商业 银行 的 数据 仓库 项 目 一 般 是 分 期 、 分 批 迭代 进行 的 ， 不 能 一 跨 而 就 。 而 且 数 据 仓 座 
项 目 复 杂 度 相对 较 高 ， 需 要 有 丰富 专 业 知 识 的 拉 术 人 员 和 业务 人 员 才 能 将 数据 仓库 项 目 建 设 
好 ， 因 此 ， 需 要 商业 银行 重视 对 数据 仓库 方面 人 才 的 培养 ， 包 括 拉 术 开发 人 员 、 设 计 人 员 和 
运 维 人 员 的 培养 。 





























9.4 电力 行业 数据 仓库 的 建设 规划 


9.4.1 电力 行业 数据 仓库 建议 难 操 
电力 行业 数据 仓库 的 建设 存在 以 下 难点 ( 见 图 9-47): 


缺乏 统一 的 数据 规划 

数据 质量 问题 

缺乏 数据 仓库 建设 在 试点 单位 的 验证 
缺乏 对 数据 仓库 建 模 的 具体 指导 意见 


数据 不 统一 、 不 完整 、 不 正确 
成 功 的 经 验 无 法 得 到 有 效 的 推广 





图 9-47 电力 行业 数据 仓库 的 建设 存在 以 下 难点 





1) 在 电力 行业 里 ， 有 些 部 门 缺乏 统一 的 数据 规划 。 

2) 因为 缺少 标准 化 的 数据 模型 和 统一 的 编码 管理 ， 所 以 经 管 导致 出 现 数据 质 量 
问题 。 

3) 电力 行业 有 时 会 缺乏 数据 仓库 建设 在 试点 单位 的 验证 。 

4) 电力 行业 有 时 同样 缺乏 对 数据 仓库 建 模 的 具体 指导 意见 。 

5) 因为 以 上 的 原因 ， 电 力行 业 的 系统 建设 很 容易 形成 信息 孤 咏 ， 导 致 数据 不 统一 、 不 
完整 、 不 正确 。 

6) 同样 也 会 导致 电 力行 业 系统 建设 的 成 功 经 验 无 法 得 到 有 效 推 广 。 

解决 数据 仓库 建设 难点 问题 的 方法 

解决 电力 行业 数据 仓库 建设 的 难点 问题 有 以 下 方法 : 

可 以 通过 试点 建设 积累 经 验 。 形 成 统一 的 数据 模型 标准 、 管 控 方 法 和 建设 流程 ， 再 大 面 
积 推广 ， 如 图 9-48 所 示 。 
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人 推广 
图 9-48 解决 电力 行业 数据 仓库 建设 的 难点 问题 


9.4.2 电力 行业 数据 仓库 体系 架构 


对 数据 的 应 用 分 析 通 过 数据 仓库 和 数据 集 市 提供 数据 支持 ， 并 通过 前 端 展示 层 ， 将 分 析 
的 结果 展现 给 最 终 用 户 。 电 力行 业 关 于 数据 仓库 的 体系 架构 如 图 9-49 所 示 。 


数据 应 用 层 


数据 集 市 层 


企业 级 数据 仓库 


业务 数据 和 其 他 外 部 数据 


图 9-49 电力 行业 数据 仓库 体系 架构 
9.4.3 电力 行业 数据 仓库 能 力 监 图 


电力 行业 的 数据 仓库 应 该 具备 以 下 几 种 能 力 : 集中 整合 能 力 、 分 析 展 现 能 力 、 高 级 应 用 
能 力 、 数 据 移动 能 力 、 质 量 保 隐 能 力 和 信息 描述 能 力 ， 如 图 9-50 所 示 。 











™ “@. _ 
分 析 展 现 能 力 ~~- SR 合 --- ”质量 保障 能 力 
高 级 应 用 能 力 数据 移动 能 
图 9-50 电力 行业 数据 仓库 应 该 具备 的 几 种 能 
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(1) 集中 整合 能 力 

数据 按照 业务 主题 的 方式 进行 存储 ， 完 成 对 零散 数据 的 整合 工作 ， 形 成 “唯一 数据 ”。 

(2) 分 析 展 现 能 力 

通过 标准 化 的 报表 和 图 表 帮 助 管 理 人 员 做 出 正确 分 析 和 决策 ， 针 对 具体 应 用 建立 相应 的 
集 市 , 并 且 提 供 高 效 的 数据 查询 和 服务 。 

(3) 高 级 应 用 能 

为 分 析 人 员 和 管理 人 员 提 供 多 维 分 析 的 能 力 ， 帮 助 用 户 从 多 个 维度 深入 分 析 需 要 的 指 
标 ; 同时 还 需要 具备 数据 挖掘 的 能 力 ， 能 够 对 企业 的 状况 和 未 来 发 展 作 出 完整 、 合 理 和 准确 
的 分 析 预 测 。 

(4) 数据 移动 能 

提供 数据 抽取 、 转 换 与 加 载 的 能 力 。 可 以 高 效 地 将 业务 分 析 需 要 的 各 类 数据 移 到 数据 仓 
库 中 。 

(5) 质量 保障 能 力 

数据 仓库 应 该 具备 完善 的 数据 质量 管理 机 制 ， 保 障 企 业内 部 数据 的 一 致 性 与 准确 性 ， 提 
升 数据 分 析 的 可 信和 度 。 

(6) 信息 描述 能 

应 该 具备 强大 的 元 数据 管理 功能 ， 以 实现 各 类 技术 术语 与 业务 术语 在 公司 内 部 的 统一 
是 义 。 


9.4.4 数据 仓库 对 电力 业务 发 展 的 促进 作用 
数据 仓库 可 以 促进 电力 业务 的 发 展 ， 如 图 9-51 所 示 。 

















电力 用 户 业务 人 员 决策 领导 
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图 9-51 数据 仓库 可 以 促进 电力 业务 的 发 展 








数据 仓库 的 建设 可 以 提高 电力 安全 运营 的 能 力 、 绩 效 分 析 的 能 力 、 电 力 营 销 管理 的 能 力 和 
决策 分 析 的 能 力 。 有 具体 表现 是 通过 对 电力 设备 的 运行 状况 、 检 和 修 情况 和 事故 的 及 时 擎 握 ， 提 高 
电力 安全 运 彰 的 能 力 ， 通 过 对 电量 、 电 费 、 电 价 的 分 析 ， 提 高 对 电量 的 需求 预测 能 力 和 价格 制 
定 能 力 ， 这 样 可 以 提高 电力 营销 管理 的 能 力 。 通 过 完善 报表 管理 的 能 力 ， 为 分 机 人 员 提 供 全 面 
的 关键 业务 信息 ， 同 时 对 运行 状态 进行 分 机 和 监控 ， 可 以 提高 统 效 分 析 和 决策 分 析 的 能 
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9.4.5 数据 仓库 建设 生 略 比较 


(1) 第 一 种 数据 仓库 建设 策略 

由 业务 部 门 建立 各 目的 数据 集 市 ， 这 种 方式 会 造成 重复 的 ETL 开发 ， 导 致 缺少 企业 层 
面 的 统一 规划 和 协调 ， 造 成 资源 的 浪费 ， 同 时 因为 缺少 跨 业 务 系统 数据 的 支撑 ， 所 以 无 法 提 
供 全 面 的 分 析 能 力 ， 也 容易 出 现 不 一 致 的 情况 。 但 是 由 于 建设 方式 简单 ， 一 般 来 说 ， 设 计 、 
开发 的 周期 部 较 短 。 

(2) 第 二 种 数据 仓库 建设 策略 

业务 部 门 根据 目 喘 需求 ， 在 统一 的 数据 仓库 平台 上 建设 更 深 层次 的 数据 分 析 应 用 ， 
这 种 建设 方式 可 以 有 效 地 形成 企业 范围 的 统一 信息 视图 ， 可 重用 ETL 流程 ， 减 少 资源 的 
浪 绞 ， 通 过 更 丰 宦 的 企业 数据 支撑 ， 提 供 全 面 的 企业 级 的 数据 分 析 能 力 。 可 以 制定 统一 
的 数据 管理 机 制 ， 提 升 数据 的 质量 ,但 是 因为 设计 、 开 发 的 难度 较 大 ， 所 以 时 间 周 期 也 
相对 较 长 。 


9.4.6 ”电力 行业 数据 仓库 的 数据 架构 设计 
电力 行业 数据 仓库 的 数据 架构 设计 如 图 9-52 所 示 。 
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数据 集 市 





图 9-52 电力 行业 数据 仓库 的 数据 架构 设计 


1. 具体 说 明 

1) 电力 公司 总 部 ODS 的 组 成 与 省 级 单位 的 ODS 相同 ， 主 要 区 别 在 于 数据 源 的 不 同 ， 电 
力 公司 总 部 ODS 主要 的 数据 源 来 自 于 总 部 的 业务 系统 ， 而 省 级 单位 ODS 主要 数据 源 来 自 于 
省 级 单位 的 业务 系统 。 

2) 电力 公司 总 部 数据 仓库 的 数据 来 源 包括 业务 明细 和 汇总 的 数据 ， 省 级 电力 公司 数据 
仓库 的 数据 是 以 中 度 或 者 高 度 汇 总 的 数据 进行 存放 。 

3) 电力 公司 总 部 的 数据 集 市 主要 针对 公司 整体 发 展 分 析 ， 跨 系统 和 跨 省 地 对 数据 进行 
全 面 挖掘 。 
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4) 省 级 电力 公司 的 数据 仓库 主要 履 盖 多 个 主题 域 的 企业 信息 ， 这 些 信息 主要 是 低级 别 
的 、 细 粒度 的 数据 ， 同 时 根据 分 析 需 求 建立 一 定 粒度 的 汇总 数据 。 它 们 主要 为 数据 集 市 提供 
整合 后 的 、 高 质量 的 数据 。 省 级 数据 仓库 和 总 部 的 数据 仓库 存在 数据 交换 的 功能 ， 同 时 将 一 
部 分 数据 下 发 到 地 市 级 中 。 

5 ) 省 级 电力 公司 的 数据 集 市 是 一 组 特定 的 、 针 对 某 个 主题 域 的 、 部 门 的 数据 集合 。 这 
些 数据 需要 针对 用 户 需 求 进行 快速 访问 ， 数 据 集 市 可 以 保障 数据 仓库 的 高 可 用 性 、 可 扩展 性 
和 高 性 能 。 

2. 数据 移动 说 明 

(1) ODS 缓冲 区 数据 抽取 到 数据 仓库 区 

数据 仓库 区 是 核心 的 数据 存储 区 域 ， 它 支持 大 部 分 的 数据 应 用 。 

数据 仓库 内 的 数据 一 般 按 照 面 向 主题 的 方式 进行 组 织 和 存放 。 数 据 模型 满足 第 三 范式 ， 
这 些 数据 在 线 存 储 的 周期 一 般 较 长 ， 而 ODS 缓冲 区 中 的 数据 结构 和 业务 系统 相似 ， 它 起 到 
绥 冲 的 作用 。 从 0DS 缓冲 区 ， 数 据 经 过 转换 、 映 射 、 清 洗 ， 最 后 加 载 到 数据 仓库 区 中 。 中 
间 的 过 程 包 含 了 合并 、 匹 配 、 数 据 的 追加 (和 攻 盖 、 更 新 ) 等 操作 ， 如 网 9-53 所 示 。 


ODS 缓冲 区 
数据 仓库 区 


























图 9-53 ”ODS 缓冲 区 数据 抽取 到 数据 仓库 区 


(2) 数据 仓库 区 数据 抽取 到 数据 集 市 区 

数据 集 市 是 针对 某 个 主题 域 、 部 门 的 数据 集合 。 这 些 数据 需要 被 快速 访问 。 数 据 集 市 的 
数据 模型 可 以 是 星 形 结构 和 雪花 形 结构 。 而 数据 仓库 的 数据 模型 满足 第 三 范式 。 从 数据 仓库 
到 数据 集 市 的 数据 迁移 ， 应 该 重点 考虑 从 规范 化 建 模 到 多 维 建 模 的 映射 关系 ， 包 括 实体 表 和 
事实 表 、 维 表 之 间 的 映射 关系 以 及 转化 过 程 。 主 要 的 过 程 包 含 了 汇总 、 绥 慢 变 化 维 等 操作 ， 
如 图 9-54 所 示 。 











数据 集 市 区 





户 





图 9-54 数据 仓库 区 数据 抽取 到 数据 集 市 区 
(3) 总 部 数据 仓库 和 省 级 数据 仓库 之 间 的 数据 交换 
总 部 数据 仓库 的 数据 源 主 要 包含 两 部 分 的 内 容 : 一 部 分 是 总 部 的 业务 系统 数据 ， 态 外 一 
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部 分 是 省 级 电力 公司 数据 仓库 的 数据 。 和 省 级 电力 公司 定时 问 总 部 数据 仓库 上 传 数据 以 供 分 析 
使 用 ， 同 时 总 部 数据 仓库 也 会 定期 将 汇总 的 数据 下 发 到 省 级 电力 公司 ， 如 网 9-55 所 示 。 





图 9-55 总 部 数据 仓库 和 省 级 数据 仓库 之 间 的 数据 交换 


的 数据 仓库 只 抽取 部 分 省 级 电力 公司 的 数据 ， 同 时 存储 跨 系 统 、 局 度 汇 





一 般 来 说 ， 总 间 
总 和 集成 的 数据 。 

(4) 省 级 数据 仓库 和 地 市 级 综合 数据 库 的 数据 交换 

省 级 数据 仓库 会 定期 将 相关 数据 加 载 到 地 市 级 综合 数据 库 ， 如 图 9-56 所 示 。 对 于 地 市 


综合 数据 库 来 说 ， 它 的 数据 主要 来 源 于 省 级 数据 仓库 下 发 的 数据 和 部 署 在 地 市 级 别 的 业务 系 
统 的 数据 。 地 市 级 综合 数据 库 也 可 以 看 作 地 市 级 的 数据 仓库 。 





省 级 数据 仓库 区 


图 9-56 省 级 数据 仓库 和 地 市 级 综合 数据 库 的 数据 交换 


小 结 


e 数据 仓库 在 比尔 . 恩 门 所 著 的 《如 何 构 建 数据 仓库 》 一 书 中 的 定义 :“ 数 据 仓 库 是 一 
个 面 癌 主题 的 (Subject oriented ) 、 集 成 的 (Integratel)、 相 对 稳定 的 (Non - Vola- 
tile) 、 有 反映 历史 变化 的 (Time - variant) 数据 集合 ， 主 要 用 于 文 持 决 策 分 析 ”。 


® 数据 仓库 是 一 个 过 程 ， 而 不 是 一 个 产品 。 数 据 仓库 的 整个 过 程 包括 很 多 产品 和 实施 
服务 。 
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e 数据 仓库 是 实现 商业 智能 的 基础 平台 ,没有 数据 仓库 的 搭建 ， 商 业 智能 是 无 法 实 

现 的 。 

e 数据 仓库 系统 建设 应 该 考虑 以 下 问题 : 

首先 选择 数据 仓库 系统 的 成 功 案例 作为 重要 参考 。 

学 习 行 业内 的 先进 经 验 。 

具备 专业 的 数据 仓库 实施 队伍 和 业务 领域 的 专家 。 

考虑 数据 仓库 是 否 满 足 海 量 数据 的 复 洒 、 并 发 查询 。 

数据 仓库 应 该 满足 可 扩展 的 能 

数据 仓库 应 该 考虑 高 可 靠 性 ， 并 且 满 足 高 质量 的 要 求 。 

e 数据 仓库 系统 相 比 其 他 系统 有 下 面 几 种 优势 . 

数据 仓库 系统 可 以 获取 生产 系统 综合 的 信息 ， 作 为 科学 决 条 分 析 的 重要 依据 。 

数据 仓库 可 以 从 宏观 的 角度 理解 信息 ， 也 可 以 从 微观 的 角度 探查 信息 。 

通过 数据 仓库 系统 ， 可 以 建立 企业 各 个 部 门 之 间 的 联系 。 

e 传统 数据 仓库 所 带 来 的 困难 ， 使 企业 管理 层 无 法 获得 及 时 、 准 确 、 有 效 的 业务 信息 ， 

这 会 对 企业 的 运营 和 竞争 力 市 来 影响 ， 原 因 如 下 所 示 : 

缺乏 有 效 的 目标 市 场 定 位 ， 难 以 推出 有 针对 性 的 产品 。 

不 能 够 根据 个 性 化 的 服务 需求 ， 制 定 出 对 应 的 俏销 胰 略 。 

不 能 及 时 了 解 客 户 的 需求 和 特征 ， 无 法 提高 客户 的 忠诚 度 。 

e 数据 仓库 的 技术 特性 : 

海量 数据 处 理 能 

高 可 用 性 。 

线性 的 扩展 能 

数据 压缩 能 

e“ 人 制定 数据 标准 ， 建 立 数据 管控 机 制 ， 以 数据 、 应 用 驱动 为 主 ” 是 数据 仓库 基本 的 建 

设 方法 论 。 

e 数据 仓库 染 构 设计 如 循 原则 . 

可 重用 性 。 

高 性 能 。 

可 扩展 性 。 

可 管理 性 。 

高 可 用 性 。 

e 数据 仓库 有 以 下 几 个 特征 . 

数据 仓库 整合 系统 的 全 局 信息 ， 包 括 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 。 

数据 仓库 中 的 数据 通常 包含 历史 信息 ， 记 录 了 从 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 信 
上 县， 通过 这 些 信息 ， 可 以 对 企业 的 发 展 历程 和 未 来 趋势 做 出 分 析 和 预测 。 

数据 仓库 的 数据 来 源 可 以 为 结构 化 的 基础 数据 ， 非 结构 化 数据 结构 化 的 数据 ， 也 可 以 是 
产品 加 工 后 的 产品 数据 ， 或 者 是 主 数据 等 。 

数据 仓库 中 的 库 内 集 市 是 根据 应 用 需求 形成 的 数据 集合 ， 它 支撑 了 各 种 专业 化 的 应 用 。 

e 关于 灾难 备份 建设 的 方法 论 ， 主 要 分 成 以 下 几 个 阶段 : 分 析 阶 段 、 架 构 设 计 阶 段 、 技 
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术 方 案 选 择 阶 段 、 实 施 阶 段 、 维 护 阶 段 。 

e 大 数据 是 指 无 法 在 一 定时 间 内 ， 用 传统 型 的 数据 库 软 件 对 其 内 容 进行 抓 取 、 管 理 和 处 
理 的 数据 集合 。 大 数据 用 于 在 成 本 可 承受 的 条 件 下 ， 通 过 快速 采集 、 发 现 和 分 析 ， 从 
大 量 的 、 多 类 别 的 数据 中 提取 价值 。 大 数据 是 一 系列 技术 的 集合 ， 汇 集 了 如 Hadoop/ 
Mapreduce、 一 体 机 、NoSQL， 数 据 分 析 与 挖 气 、 商 业 智能 、 数 据 仓库 等 。 

。 商业 银行 数据 仓库 的 建设 一 般 都 采用 分 阶段 建设 的 策略 : 第 一 阶段 ， 基 本 实现 对 数据 
的 集中 处 理 ， 特 别 是 对 内 部 重要 报表 系统 提供 数据 文 桂 。 第 二 阶段 ， 进 一 步 实 施 诸如 
资产 负 俩 管理、 客户 关系 管理 或 者 菜 些 灵活 报表 查询 等 较为 复杂 的 管理 分 析 类 应 用 。 
第 三 阶段 就 是 在 第 二 阶段 的 基础 上 ， 实 施 数据 挖掘 分 析 、 商 业 入 能 等 应 用 。 

。 对 于 大 多 数 商 业 银 行 来 说 ， 数 据 仓 库 的 建设 不 是 一 跷 而 就 的 ， 一般 是 通过 分 阶段 、 分 
期 实施 的 ， 然 后 逐步 建设 数据 仓库 的 模型 ， 最 后 对 应 用 形成 支持 。 在 数据 仓库 的 建设 
过 程 中 ， 需 要 业务 部 门 主 寻 及 深入 参与 ， 次 入 发 据 和 分 析 业 务 管理 分 析 方面 的 需求 ， 
并 且 建 立 相 应 的 数据 管控 。 同 时 需要 团队 的 培养 和 知识 的 积累 等 工作 。 

® 对 于 数据 仓库 的 目标 数据 架构 ， 可 以 提供 以 下 建议 

在 源 数据 层 和 数据 服务 层 之 间 建 立 一 个 数据 交换 平台 ,包括 数据 服务 层 内 部 的 数据 流动 























者 通过 数据 交换 平台 ，ODS 相当 于 数据 的 集成 平台 ， 和 存储 的 虱 是 实时 性 的 数据 ， 数 据 仓库 
存储 的 部 是 历史 数据 。 





数据 仓库 可 以 分 成 基础 区 、 汇 总 区 和 集 市 。 
对 于 数据 沙盘 的 使 用 ， 如 琳 攻 个 应 用 从 源 数 据 层 通过 数据 交换 平台 到 ODS， 到 数据 仓 


库 层 ， 再 到 数据 集 市 层 ， 可 能 数据 的 链 路 过 长 ， 影 响应 用 的 时 效 性 ， 这 样 可 以 建 一 个 数据 沙 
盘 ， 数 据 可 以 直接 从 ODS 取 数 ,或 者 从 数据 仓库 、 数 据 集 市 中 取出 数据 ， 当 稳定 和 固化 后 ， 
再 把 应 用 挪 到 ODS 或 者 数据 仓库 、 数 据 集 市 中 。 数 据 沙 盘 也 可 以 称 为 数据 试验 区 。 











对 于 大 数据 来 说 ， 可 能 本 号 会 有 应 用 ， 或 者 和 结构 化 数据 结合 起 来 一 起 应 用 。 

所 有 的 数据 流动 都 有 统一 的 调度 工具 进行 调度 ， 同 时 建立 对 数据 的 分 布 和 流转 的 数据 管 

包括 元 数据 管理 、 数 据 质 量 管理 、 数 据 标 准 管理 、 数 据 生命 周期 管理 等 内 容 。 

e。 解决 电力 行业 数据 仓库 建设 的 难点 问题 有 以 下 方法 : 可 以 通过 试点 建设 积累 经 验 ， 形 
成 统一 的 数据 重型 标准 、 管 欣 方 法 和 流程 ， 册 大 面积 推广 。 

。 数据 仓库 的 建设 可 以 提高 电力 安全 运营 的 能 力 、 续 效 分 析 的 能 力 、 电 力 营 销 管理 的 能 
力 和 决策 分 析 的 能 力 。 具 体 表 现 是 通过 对 电力 设备 的 运行 状况 、 检 和 修 情况 和 事故 的 及 
时 擎 握 ， 提 高 电力 安全 运 萌 的 能 力 ， 通 过 对 电量 、 电 费 、 电 价 的 分 析 ， 提 高 对 电量 的 
需求 预测 能 力 和 价格 制定 能 力 ， 这 样 可 以 提高 电力 营销 管理 的 能 

。 电力 行业 数据 仓库 模型 的 建立 过 程 : 首先 建设 企业 级 的 概念 数据 模型 ， 然 后 在 此 基础 
上 建设 企业 级 逻辑 数据 模型 ， 最 后 建设 电力 物理 数据 模型 。 
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第 10 音 ” 商 业 智 能 一 ODS 数据 架构 和 案例 


本 章 目标 

通过 前 几 间 的 学 习 ， 我 们 了 解 了 数据 仓库 的 定义 、 数 据 仓 库 产 生 的 背景 、 数 据 仓 库 的 主 
要 特征 、 数 据 仓 库 面 临 的 挑战 和 技术 特性 。 同 时 我 们 也 了 解 了 数据 仓库 的 建设 方法 、 数 据 仓 
库 的 架构 规划 ， 包 括 大 数据 环境 下 的 数据 仓库 建设 、 数 据 仓库 模型 的 设计 、 关 于 数据 仓库 系 
统 的 灾难 备份 规划 ， 最 后 我 们 学 习 了 关于 商业 银行 的 数据 仓库 建设 和 电力 行业 数据 仓库 的 建 
设 等 相关 内 容 。 

学 习 本 章 后 ， 读 者 将 掌握 . 

e ODS 的 定义 

e ODS 的 系统 目标 

e ODS 的 业务 目标 

e 某 商 业 银 行 ODS 系统 的 数据 架构 规划 

e 某 商 业 银 行 ODS 系统 案例 

e ODS 逻辑 模型 设计 

e 0DS 物理 模型 设计 





10.1 ODS 概述 


10.1.1 ODS 的 定义 


关于 ODS 的 概念 ， 在 前 几 章 已 经 进行 了 介绍 ， 即 ODS 是 面向 主题 的 、 集 成 的 、 可 变 
的 、 并 且 反 映 当 前 细 市 性 的 数据 集合 ， 用 于 支持 即时 性 的 、 操 作 性 的 全 局 信息 的 需求 ， 它 是 
数据 仓库 的 过 渡 阶 段 。 关 于 ODS 有 很 多 的 解释 和 定义 ， 最 根本 的 就 是 ODS 需要 集成 多 个 系 
统 的 数据 ， 同 时 又 要 给 一 个 或 者 多 个 系统 使 用 。 通 常数 据 有 较 频 繁 的 更 新 以 及 保存 即时 性 的 
言 息 。 

对 于 企业 来 说 ，ODS 系统 可 以 解决 很 多 的 问题 。 例 如 ，0ODS 拥有 最 少 的 历史 数据 ， 而 
尽 可 能 接近 实时 地 监控 企业 目前 的 运转 情况 ， 提 供 企 业内 部 或 者 外 部 的 信息 以 支持 决策 分 
析 ， 提 供 实 时 的 全 局 信息 以 便于 制定 未 来 的 发 展 战略 。 

ODS 的 建设 流程 一 般 包括 4 个 步骤 : 

1 ) 对 数据 进行 统一 整合 ， 构 建 全 企业 的 数据 标准 化 体系 。 

2) 实现 对 应 用 系统 的 统一 供 数 和 数据 分 发 。 

3) 实现 数据 架构 和 技术 架构 的 统一 ， 不 断 完 善 ODS 系统 的 建设 。 

4) 将 ODS 系统 的 数据 转 人 到 数据 仓库 中 ， 以 便 对 历史 数据 进行 分 析 和 欣 掘 。 

通过 ODS 系统 的 建设 ， 可 以 有 效 地 缩短 应 用 系统 的 实施 路 径 ， 降 低 重 复 开 发 率 ， 同 时 
可 以 提高 对 数据 需求 的 快速 啊 应 ， 为 更 深层 次 的 挖掘 分 析 黄 定 基 础 。 
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10. 1.2 ODS 的 系统 目标 和 业务 目标 


(1) ODS 的 系统 目标 

ODS 系统 作为 企业 运营 数据 共享 的 平台 ， 应 该 集成 各 个 业务 系统 的 数据 ， 支 持 跨 系统 
的 数据 应 用 ， 有 效 地 提升 数据 的 质量 。 因 此 ，0DSs 的 系统 目标 包括 以 下 儿 个 . 

e 效 据 共 且 

通过 ODS 系统 为 各 个 业务 系统 提供 共享 数据 ， 降 低 接 口 的 复杂 度 ， 提 高 系统 接口 的 
效率 。 

e 数据 质量 的 校 验 和 管控 

通过 ODS 系统 提高 数据 质量 的 校 验 能 力 和 管控 能 力 ， 包 括 提 升 数据 的 完整 性 、 唯 一 性 、 
一 致 性 和 及 时 性 。 对 于 校 验 能 力 ， 主 要 包括 唯一 性 校 验 、 一 致 性 校 验 和 主 外 键 校 验 等 内 容 。 
例如 ， 在 某 ODS 系统 中 ， 客 户主 题 中 的 客户 信息 不 允许 重复 ， 客 户 旱 份 证 号 人 码 字 上 段 可 以 作 
为 客户 唯一 识别 的 标识 。 为 了 保证 客户 信息 的 正确 性 ， 需 要 在 ODS 系统 中 增加 对 客户 基本 
言 县 表 的 唯一 性 校 验 。 

e 数据 整合 的 能 

通过 ODS 系统 的 建设 ,提升 数 据 整 合 的 能 力 ， 包 括 统 一 的 数据 模型 、 数 据 标准 和 数据 
视图 等 。 

e 实时 或 者 准 实时 地 提供 数据 应 用 

通过 ODS 系统 的 建设 ， 可 以 为 用 户 提 供 固 定 报 表 应 用 、 查 询 类 应 用 、 动 态 决 策 分 析 应 
用 、 风 险 监 控 类 的 应 用 等 内 容 。 

(2) ODS 的 业务 目标 

ODS 系统 是 商业 智能 架构 的 重要 组 成 部 分 ， 它 可 以 实现 蜂 系 统 的 数据 整合 。0DS 系统 
的 业务 目标 主要 包括 : 

e 为 客户 提供 统一 的 视图 和 展示 。 

e 为 客户 提供 生产 经 营 类 的 报表 展示 。 

e 为 客户 提供 关键 绩效 类 的 报表 展示 。 

e 为 客户 提供 经 营 风 险 类 的 报表 展示 。 

e 为 客户 提供 决策 分 析 类 的 报表 展示 。 






































10.2 关于 ODS 系统 的 数据 架构 


10.2.1 某 商 业 银 行 ODS 系统 的 数据 架构 规划 


关于 某 商业 银行 ODS 系统 数据 架构 规划 的 设计 思路 ， 主 要 包括 以 数据 源 作为 驱动 、 统 
一 管理 和 规范 、 完 善 共性 加 工 层 等 几 个 方面 的 内 容 。 

。 以 数据 源 作为 驱动 

对 数据 源 系 统 进行 分 析 ， 按 照 模型 贴近 源 系统 的 原则 ， 确 定 源 系统 的 增 量 层 和 标准 增 
层 


an 


e 统一 管理 和 规范 
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我 们 可 以 基于 银行 的 数据 统一 标准 ， 在 源 系统 分 析 基 础 上 ， 对 标准 增 量 层 的 数据 进行 整 
合 ， 然 后 按照 业务 主题 重新 组 织 ， 形 成 基础 数据 层 。 

e 完善 共性 加 工 层 

根据 业务 需求 ， 整 理 共性 加 工 层 ， 以 满足 公共 加 工 的 要 求 。 

某 商 业 银 行 ODS 系统 的 数据 架构 规划 设计 如 下 : 

ODS 系统 的 架构 设计 可 以 分 成 儿 个 层次 : 源 数 据 增 量 层 、 标 准 增 量 层 、 基 础 数据 层 、 
共性 加 工 层 。 每 个 应 用 系统 都 独立 设计 各 自 的 数据 集 市 。 

其 中 源 数据 增 量 层 和 标准 增 量 层 与 源 系统 结构 类 似 ， 对 数据 进行 标准 化 处 理 ， 以 避免 源 
系统 的 变化 对 基础 数据 层 的 影响 。 基 础 数据 层 按照 业务 主题 进行 整合 ， 在 设计 过 程 中 ， 考 虑 
业务 发 展 的 需求 ， 为 分 析 类 应 用 提供 标准 化 的 基础 数据 。 共 性 加 工 层 根据 业务 特点 ， 结 合 实 
际 应 用 ， 对 一 些 指标 进行 统计 分 析 ， 为 集 市 提供 统计 数据 。 一 般 来 说 ， 共 性 加 工 层 只 进行 简 
单 的 汇总 计算 ， 随 着 应 用 系统 的 不 断 扩 充 ， 可 以 整理 出 相关 的 共性 指标 。 

最 后 在 基础 数据 层 和 共性 加 工 层 的 基础 上 为 分 行 和 总 行 的 应 用 系统 提供 数据 ， 或 者 为 每 
个 应 用 系统 建设 独立 的 数据 集 市 。 

基于 以 上 思路 ， 关 于 某 商业 银行 ODS 系统 的 数据 架构 规划 如 网 10-1 所 示 。 


基础 数据 层 数据 分 发 层 数据 集 市 层 
共性 加 工 层 
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分 行 数据 











图 10-1 关于 某 商业 银行 ODS 系统 的 数据 染 构 规划 


对 各 个 层次 的 描述 主要 包括 源 数据 增 量 层 、 标 准 增 量 层 、 基 础 数据 层 和 共性 加 工 层 。 

。 源 数 据 增 量 层 

源 数据 增 量 层 存放 各 个 业务 系统 的 增 量 文件 ， 可 以 由 ETL 工具 进行 增 量 抽取 。 源 数据 
增 量 层 可 以 将 数据 保存 一 周 左右 。 

。 标准 增 量 层 

标准 增 量 层 是 介 于 源 数 据 增 量 层 和 基础 数据 层 之 间 的 栋 型 ， 它 的 数据 结构 是 她 源 的 ， 蚌 
经 过 清洗 和 标准 化 后 的 数据 。 

® 基础 数据 层 

基础 数据 层 是 ODS 系统 的 核心 ， 对 业务 数据 进行 轻 度 的 整合 ， 该 模型 贴近 源 系 统 ， 同 
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时 保证 数据 的 标准 化 。 该 层 需要 保留 必要 的 历史 数据 ， 可 能 是 几 个 月 ， 也 可 能 是 若干 年 。 
。 共 性 加 工 层 
共性 加 工 层 是 ODS 系统 的 重要 组 成 部 分 之 一 ， 目 的 是 提高 数据 查询 的 效率 ， 对 查询 请 
求 频率 较 高 的 数据 做 进一步 的 整合 。 方 便 对 共性 基础 指标 进行 统计 分 析 ， 该 层 只 包含 基本 的 
汇总 数据 。 共 性 加 工 层 将 共性 指标 提炼 出 来 ， 减 少 系统 的 重复 处 理 。 


10.2.2 某 商业 银行 ODS 系统 案例 


下 面 介绍 某 商 业 银 行 ODS 系统 建设 的 案例 。 在 ODS 系统 未 建 之 前 ， 如 图 10-2 所 示 , 这 
种 复杂 的 网 状 结构 会 带 来 一 系列 的 问题 ， 可 能 会 造成 信息 孤岛 ， 数 据 的 可 共享 性 降低 ， 缺 乏 
完整 的 数据 解决 方案 。 











应 用 1 
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数据 集 市 1 数据 集 市 2 数据 集 市 3 








图 10-2 ODS 系统 未 建 之 前 
按照 此 种 思路 ，0ODS 系统 未 建 之 前 ， 系 统 的 复杂 度 是 M xN， 如 图 10-3 所 示 。 
应 用 1 应 用 2 应 用 3 
ge og 


i 





数据 源 2 数据 源 3 
系统 复杂 度 : MXN 
图 10-3 ”ODS 系统 未 建 之 前 的 系统 复杂 度 
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ODS 建成 之 后 ， 作 为 一 个 中 间 的 层次 ， 它 包 会 全 局 一 致 的 、 细 节 的 、 当 前 的 数据 。 经 
过 ODS 系统 的 初步 集成 和 标准 化 加 工 ， 对 具有 共性 的 数据 加 工 需 求 进行 抽象， 以 供 后 续 加 
工 使 用 。 数 据 仓库 的 数据 来 自 于 ODS 系统 ，ODS 系统 的 数据 经 过 转换 后 ， 根 据 需 要 可 以 移 
入 数据 仓库 中 ， 如 图 10-4 所 示 。 


应 用 1 





数据 集 市 1 数据 集 市 2 数据 集 市 3 





统 言 用 卡 业 务 全 网 银 业务 


图 10-4 ODS 系统 建成 之 后 


ODS 建成 之 后 ， 系 统 的 复杂 度 是 M +N， 如 图 10-5 所 示 。 





应 用 1 应 用 2 应 用 3 
4 4 噬 
ODS 


数据 源 3 





系统 复杂 度 : M+N 
图 10-$ 0DS 建成 之 后 的 系统 复杂 度 
综 上 所 述 ，0DS 系统 在 业务 系统 数据 源 和 各 个 应 用 之 间 形 成 一 个 缓冲 市， 它 可 以 对 各 
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个 业务 数据 进行 标准 化 、 规 范 化 ， 进 行 数据 质量 管理 ， 最 后 实现 全 企业 的 统一 数据 视图 。 同 
时 支撑 跨 系 统 的 数据 应 用 ， 提 供 数 据 共享 ， 满 足 银行 在 业务 经 营 和 精细 化 管理 方面 对 高 质量 
和 高 时 效 的 需求 。 








10. 3 ” ODS 模型 设计 


天 于 0DS 的 模型 设计 ， 主 要 包括 数据 调研 、 确 定数 据 范 于 和 主题 定义 。 数 据 调研 是 对 
现 有 业务 系统 的 逻辑 模型 和 物理 模型 进行 了 解 。 确 定数 据 范 围 是 在 业务 系统 调 俩 的 基础 上 进 
行 的 ， 目 的 是 确保 应 用 所 和 需 的 数据 部 已 经 从 业务 系统 中 抽取 出 来 了 了。 主题 的 定义 是 以 业务 系 
统 为 基础 ， 参 考 业 务 系统 的 企业 模型 来 定义 数据 主题 ， 主 要 以 ER 模型 为 主 。 


10. 3.1 ODS 逻辑 模型 设计 


天 于 0DS 逻辑 模型 的 设计 过 程 ， 主 要 包括 : 人 逻辑 结构 定义 、 和 存储 周期 定义 和 和 存储 粒度 
定义 。 

逻辑 结构 定义 主要 包括 : 定义 各 个 实体 的 概念 特性 、 实 体 和 实体 之 间 的 关系 等 。 

存储 周期 定义 主要 是 指数 据 在 ODS 中 的 存储 期 限 。 例 如 ， 有 些 数 据 在 ODS 中 保存 一 段 
时 间 后 再 加 载 到 数据 仓库 即 删 除 ， 有 一 些 数 据 可 能 会 在 ODS 中 长 期 保存 。 

存储 粒度 定义 是 指数 据 在 ODS 中 存储 的 细节 程度 。 粒 度 层次 的 划分 决定 了 ODS 中 的 数 
据 量 和 查询 的 灵活 度 。 

关于 0DS 逻辑 模型 的 设计 步骤 ， 如 图 10-6 所 示 ， 主 要 包括 : 定义 数据 范围 、 主 题 定 
义 、 形 成 逻辑 模型 说 明 书 。 


wa 


图 10-6 ODS 逻辑 模型 的 设计 步骤 











形成 逻辑 模 


型 说 明 书 





(1) 定义 数据 范围 

确定 数据 范围 是 在 对 业务 系统 调研 的 基础 上 进行 的 ， 确 保 应 用 所 需 的 数据 都 已 经 从 业务 
系统 中 抽取 出 来 了 。 一 般 来 说 ， 设 计 人 员 需 要 综合 业务 系统 的 企业 模型 ， 得 到 全 企业 范围 内 
的 数据 视图 ， 通 过 抽象 划分 逻辑 模型 的 数据 主题 范围 。 

(2) 主题 定义 

通过 数据 主题 的 分 解 和 重 构 ， 进 行 主题 的 定义 ， 包 括 定义 实体 、 实 体 之 间 的 关系 ， 对 应 
的 存储 粒度 、 存 储 期 限 等 。 在 ODS 中 ,， 通 过 对 实体 的 归并 ， 保 证 实体 之 间 的 一 致 性 和 唯 
一 性 。 

(3) 形成 逻辑 模型 说 明 书 

需要 在 ODS 逻辑 模型 说 明 书 中 对 数据 范围 、 主 题 定义 、 实 体 和 实体 之 间 的 关系 进行 详 
细 地 描述 。 在 ODS 逻辑 结构 说 明 书 中 需要 对 数据 范围 、 主 题 定义 、 实 体 和 相关 属性 的 定义 
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进行 精确 、 详 尺 地 描述 。 同 时 需要 详细 说 明 数 据 的 存储 周期 、 存 储 方式 每 。ODS 逻辑 模型 
需要 解决 数据 的 粒度 层次 划分 ， 关 于 粒度 层次 的 划分 直接 决定 了 ODS 的 数据 量 和 查询 的 灵 
活性 。 一 般 来 说 ，0DS 中 的 数据 是 从 生产 业务 系统 中 取出 的 细 市 性 数据 ， 数 据 粒 度 与 业务 
源 系 统 保持 一 致 。 


10. 3.2 ODS 物理 模型 设计 


ODS 物理 模型 设计 是 对 数据 的 索引 沫 略 、 数 据 存 放 位 置 和 数据 的 存储 分 配 进行 定义 。 
物理 模型 设计 人 员 需 要 了 解数 据 的 使 用 频率 、 数 据 规模 以 及 啊 应 时 间 要 求 等 。 同 时 理解 外 部 
存储 设备 的 特性 ， 如 分 块 原则 、 设 备 的 VO 特性 等 内 容 。 

其 中 数据 的 和 受 引 策略 是 为 了 提高 数据 的 存 取 效 率 。 特 别 是 在 数据 仓库 中 ， 设 计 人 员 应 该 
考虑 为 数据 存储 建立 专用 或 者 多 样 的 索引 ， 因 为 数据 仓库 中 的 数据 是 不 经 第 更 新 的 ， 数 据 存 
储 相 对 稳定 。 

数据 存放 位 置 主要 考虑 将 不 同类 别 的 数据 存放 到 不 同 的 存储 设备 中 。 例 如 ， 一 些 重要 程 
度 高 、 对 啊 应 时 间 要 求 较 融 的 数据 应 该 存放 在 高 速 存储 设备 上 ， 如 便 盘 ; 对 一 些 存 取 频 率 较 
低 和 啊 应 时 间 有 要求 不 高 的 数据 应 该 放 在 低速 存储 设备 上 ， 如 磁 市 和 磁盘 中 。 

数据 的 存储 分 配 主要 是 确定 块 的 大 小 、 绥 冲 区 的 大 小 和 个 数 等 内 容 。 通 过 对 存储 分 配 的 
参数 指定 ， 实 现 数据 的 物理 优化 。 
































小 结 


e 对 于 企业 来 说 ，ODS 系统 可 以 解决 很 多 问题 。 例 如 ，0DS 拥有 较 少 的 历史 数据 ， 而 尽 
可 能 接近 实时 地 监控 企业 目前 的 运转 情况 ， 提 供 企 业内 部 或 者 外 部 的 信息 以 支持 决策 
分 析 ， 提 供 实 时 的 全 局 信息 以 便于 制定 未 来 的 发 展 战略 。 

e ODS 系统 作为 企业 运营 数据 共享 的 平台 ， 应 该 集成 各 个 业务 系统 的 数据 ， 文 持 跨 系统 
的 数据 应 用 ， 有 效 地 提升 数据 的 质量 。 

e ODS 系统 是 商业 智能 架构 的 重要 组 成 部 分 之 一 ， 它 可 以 实现 跨 系 统 的 数据 整合 。 

e ODS 系统 的 架构 设计 可 以 分 成 儿 个 层次 : 源 数 据 增 量 层 、 标 准 增 量 层 、 基 础 数据 层 、 
共性 加 工 层 。 每 个 应 用 系统 都 独立 设计 各 自 的 数据 集 市 。 

e 源 数 据 增 量 层 存放 各 个 业务 系统 的 增 量 文件 ， 可 以 由 ETL 工具 进行 增 量 抽取 。 源 数据 
增 量 层 可 以 将 数据 保存 一 周 左右 。 

e 标准 增 量 层 是 介 于 源 数 据 增 量 层 和 基础 数据 层 之 间 的 模型 ， 它 的 数据 结构 是 贴 源 的 ， 
是 经 过 清洗 和 标准 化 后 的 数据 。 

e 基础 数据 层 是 ODS 系统 的 核心 ， 对 业务 数据 进行 轻 度 的 整合 ， 该 模型 贴近 源 系统 ， 同 时 保 
证 数据 的 标准 化 。 该 层 需要 保留 必要 的 历史 数据 ， 可 能 是 几 个 月 ， 也 可 能 是 耕 十 年 。 

e 共性 加 工 层 是 ODS 系统 的 重要 组 成 部 分 之 一 ， 目 的 是 提高 数据 查询 的 效率 ， 对 查询 
请 求 频率 较 高 的 数据 做 进一步 的 整合 ， 方 便 对 共性 基础 指标 进行 统计 分 析 ， 该 层 只 包 
含 基本 的 汇总 数据 。 共 性 加 工 层 将 共性 指标 提 炬 出 来 ,减少 系 统 的 重复 处 理 。 

e 关于 ODS 逻辑 模型 的 设计 过 程 ， 主 要 包括 逻辑 结构 定义 、 存 储 周 期 定义 和 存储 粒度 
定义 。 
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逻辑 结构 定义 主要 包括 定义 各 个 实体 的 概念 特 性 、 实 体 和 实体 之 间 的 关系 等 。 
存储 周期 定义 主要 是 指数 据 在 ODS 中 的 存储 期 限 。 例 如 ， 有 些 数 据 在 ODS 中 保存 一 段 
时 间 后 再 加 载 到 数据 仓库 即 删 除 ， 有 一 些 数 据 可 能 会 在 ODS 中 长 期 保存 。 
存储 粒度 定义 是 指数 据 在 ODS 中 存储 的 细节 程度 。 关 于 粒度 层次 的 划分 决定 了 ODS 中 
的 数据 量 和 查询 的 灵活 度 。 
e。 ODS 物理 异型 设计 是 对 数据 的 索引 寅 略 、 数 据 存 放 位 置 和 数据 的 存储 分 配 进行 定义 。 
物理 模型 设计 人 员 需 要 了 解数 据 的 使 用 频率 、 数 据 规 模 以 及 啊 应 时 间 要 求 等 。 同 时 理 
解 外 部 存储 设备 的 特性 ， 如 分 块 原则 、 设 备 的 VO 特性 等 内 容 。 
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第 11 瘟 商业 智能 一 数据 集 市 女 构 和 和 例 


本 章 目标 

通过 前 儿童 的 和 学习， 我 们 已 经 掌握 了 商业 千 能 的 几 个 基本 组 成 部 分 ， 包 括 数据 仓库 的 定 
义 、 数 据 仓库 产生 的 背景 、 数 据 仓库 的 主要 特征 、 数 据 仓 库 面临 的 挑战 和 技术 特性 ，0ODS 
的 定义 、0DS 的 系统 目标 和 业务 目标 、 关 于 某 商业 银行 ODS 系统 的 数据 架构 规划 、 某 商业 
银行 ODS 系统 案例 、ODS 逻辑 模型 设计 和 ODS 物理 模型 设计 等 内 容 。 下 面 我 们 主要 讲解 关 
于 数据 集 市 的 染 构 和 案例 。 

通过 本 章 的 学 习 ， 读 者 将 掌握 : 

® 数据 集 市 的 概念 

。 关于 数据 集 市 的 误区 

。 关于 数据 集 市 的 主要 应 用 

。 数据 集 市 概念 模型 设计 

。 数据 集 市 逻辑 模型 设计 

。 数据 集 市 物理 模型 设计 

。 数据 集 市 的 淋 构 模式 

® 菏 商 业 银 行 的 数据 集 市 淋 构 解决 亡 案 





11.1 数据 集 市 概述 


11.1.1 数据 集 市 概念 


数据 集 市 的 概念 在 前 面 已 经 做 了 定义 。 人 简单 地 说 ， 数 据 集 市 是 一 种 较 小 的 和 集中 的 数据 
仓库 。 业 务 系统 的 数据 经 过 数据 仓库 流入 到 不 同 的 部 门 ， 而 这 些 部 门 级 的 数据 仓库 就 称 为 数 
据 集 市 。 一 般 来 资 ， 每 个 部 门 都 有 各 目的 数据 集 市 ， 它 们 之 间 可 能 相互 关联 ， 但 本 质 上 是 相 
互 独立 的 。 数 据 仓库 主要 面 问 整个 企业 ， 而 数据 集 市 则 面 回 各 个 部 门 。 数 据 仓库 的 粒度 相对 
较 小 ， 而 数据 集 市 的 粒度 一 般 是 概括 汇总 级 的 。 


11.1.2 关于 数据 集 市 的 误区 


我 们 分 析 一 下 关于 数据 集 市 的 理解 有 哪些 误区 ? 如 图 11-11 所 示 。 

(1) 数据 量 大 小 是 区 分 数据 集 市 和 数据 仓库 的 主要 特征 

数据 量 的 大 小 不 能 作为 区 分 数据 集 市 和 数据 仓库 的 主要 特征 ， 因 为 有 可 能 某 个 生产 厂商 
数据 仓库 的 数据 量 远 远 小 于 电信 行业 某 个 部 门 数 据 集 市 的 数据 量 。 
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(2) 数据 集 市 是 容易 建立 起 来 的 
数据 集 市 在 很 大 程度 上 比 数据 仓库 的 复杂 性 略 低 一 些 ， 因 为 它 只 针对 某 一 特定 主题 。 但 
是 因为 数据 集 市 可 能 会 从 多 个 数据 源 中 提取 数据 ， 围 绕 数 据 的 复杂 问题 会 很 咒 ， 因 此 数据 集 
市 不 会 很 容易 建立 起 来 。 


数据 量 大 小 是 区 分 数 
据 集 市 和 数据 仓库 的 
”主要 特征 


数据 集 市 是 容易 。 ”SJ 数据 集 市 比较 容易 
建立 起 来 的 升级 成 数据 仓库 





图 11-1 关于 数据 集 市 的 理解 有 哪些 误区 
(3) 数据 集 市 比较 容易 升级 成 数据 仓库 
数据 集 市 主要 针对 特定 的 业务 需求 ， 采 用 特殊 的 模型 。 当 扩展 和 追加 数据 的 时 候 ， 


会 增加 信息 扳 马 ， 不 能 以 企业 全 局 的 视角 分 析 数 据 ， 因 此 数据 集 市 升级 到 数据 仓库 会 
很 困难 。 


11.1.3 关于 数据 集 市 的 主要 应 用 
关于 数据 集 市 的 主要 应 用 ， 包 括 监控 预警 、 客 户 群 分 析 、 即 席 查 询 和 有 目 助 报表 。 


(1 ) 监控 预警 

数据 集 市 的 监控 预警 功能 主要 实现 指标 类 、 业 务 类 相关 数据 的 监控 预警 。 

(2) 客户 群 分 析 

数据 集 市 的 客户 群 分 析 是 针对 业务 部 门 和 客服 部 门 的 营销 需求 ， 对 客户 信息 进行 详细 分 
析 ， 为 营销 提供 支撑 。 可 以 针对 区 域 ( 恕 省、 市、 区、 县、 家庭、 学校 等 ) 、 客 户 属 性 (如 
职业 、 消 费 习惯 每 ) 进行 客户 群 的 细 分 。 

(3) 即席 查询 

数据 集 市 的 即席 查询 是 基于 数据 集 市 业务 逻辑 视图 ， 面 铝 业 务 人 员 的 查询 工具 ， 提 供 各 
种 查询 生成 需 的 功能 。 

(4) 自助 报表 

数据 集 市 的 自助 报表 一 般 是 面向 企业 管理 人 员 和 业务 人 员 使 用 的 ， 可 以 提供 各 种 报表 预 
览 和 发 布 功 能 。 可 以 提高 业务 部 门 、 管 理 部 门 报表 需求 的 啊 应 速度 。 























11.2 数据 集 市 模型 设计 


数据 集 市 建 醒 时 通 篆 采 用 “ 目 顶 向 下 ”的 方法 ， 建 醒 过 程 可 以 分 成 以 下 三 个 阶段 : 数 
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据 集 市 概念 模型 设计 、 数 据 集 市 逻辑 模型 设计 和 数据 集 市 物理 模型 设计 。 

1. 数据 集 市 概念 模型 设计 

数据 集 市 概念 模型 设计 是 通过 需求 分 析 ， 明 确 需求 涵盖 的 业务 范围 ， 然 后 对 需求 范围 内 
的 业务 和 业务 之 间 的 关系 进行 概括 性 的 描述 ， 通 过 对 业务 对 和 象 的 归 类 ， 划 分 主题 域 。 概 念 模 
型 的 设计 是 为 逻辑 模型 设计 做 准备 的 。 

2. 数据 集 市 逻辑 模型 设计 

数据 集 市 逻辑 模型 设计 是 通过 对 概念 模型 的 各 个 主题 域 进行 细 化 ， 同 时 根据 业务 定义 、 
分 类 和 规划， 定义 实体 并 描述 实体 之 间 的 关系 ， 在 实体 关系 的 基础 上 明确 各 个 实体 的 属性 。 
实体 间 的 对 应 、 约 束 关 系 则 来 目 于 各 业务 过 程 中 的 规则 ， 最 后 定义 相应 的 事实 表 和 维度 表 ， 
组 成 星 形 逻辑 模型 。 

3. 数据 集 市 物理 模型 设计 

数据 集 市 物理 模型 的 说 计 依 赖 于 逻辑 模型 的 完成 ， 目 的 是 提高 数据 分 析 的 效率 ， 针 对 具 
体 的 分 析 需 求 采 取 相 应 的 优化 腰 略 。 数 据 集 市 的 主题 分 为 两 种 类 型 : 综合 类 主题 和 专业 类 主 
题 。 综 合 类 主题 是 从 整个 企业 的 关键 指标 进行 综合 分 析 。 专 业 类 主题 是 从 业务 部 门 天 心 的 指 
标 进行 分 析 。 

数据 集 市 的 数据 分 为 两 种 ,一 种 是 基于 数据 仓库 的 细 市 数据 或 者 汇总 数据 进行 统计 分 
析 ， 为 一 种 是 基于 数据 挖掘 进行 分 析 。 





11.3 数据 集 市 的 架构 模式 





数据 集 市 的 染 构 模式 主要 分 成 库 内 数据 集 市 和 库 外 数据 集 市 。 

库 内 数据 集 市 是 部 署 在 企业 级 数据 仓库 之 内 的 ， 在 数据 仓库 的 汇总 数据 层 和 基础 数据 层 
基础 上 构建 面 回 特定 主题 的 数据 集 市 。 库 内 数据 集 市 可 以 共享 汇总 数据 层 和 基础 数据 层 的 数 
据 ， 如 图 11-2 所 示 。 

库 外 数据 集 市 是 根据 应 用 需求 而 形成 的 数据 集合 。 库 外 集 市 一 般 是 在 数据 仓库 之 外 进行 
部 署 的 ， 它 具有 专门 的 软 便 件 设备 。 库 外 数据 集 市 的 来 源 是 数据 仓库 基础 数据 层 和 汇总 数据 
层 的 数据 ， 如 图 11-3 所 示 。 











库 外 数据 集 市 
分 析 类 产品 应 用 
数据 仓库 
数据 仓库 

上 
. 总 管理 分 析 类 忆 
总 数 下 开 类 应 用 
数 据 
据 层 | 
层 

图 11-2 库 内 数据 集 市 图 11-3 库 外 数据 集 市 
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11.4 某 商 业 银 行 的 数据 集 市 架构 解决 方案 


例如 ， 某 商业 银行 关于 数据 仓库 建设 已 经 初 具 规模 ， 随 着 历史 数据 的 累积 ， 数 据 仓 库 可 
以 满足 各 类 分 析 需 求 ， 按 照 该 银行 的 长 期 规划 ， 数 据 集 市 的 建设 逐渐 提 上 日 程 。 它 可 以 降低 
成 本 ， 提 升 效率 ， 提 高 整体 架构 的 安全 性 。 

按照 该 银行 的 数据 架构 ， 数 据 集 市 的 建设 采用 “上 自 项 向 下 ”的 建设 思路 ， 即 首先 建设 
全 行 统一 的 数据 仓库 。 数 据 仓库 的 数据 来 源 于 各 类 业务 系统 及 外 部 数据 ， 对 全 行 数据 进行 整 
合 ， 做 到 数据 的 完整 、 统 一 ;再 从 业务 层面 ， 基 于 数据 仓库 建设 各 类 应 用 的 数据 集 市 ， 数 据 
集 市 的 数据 来 源 于 数据 仓库 ， 避 人 免 重 复 的 数据 整合 和 转换 工作 ,满足 各 类 分 析 应 用 的 需求 ， 
如 图 11-4 所 示 。 


数据 源 层 


数据 集 市 
综合 前 端 
服务 系统 
电子 银行 
渠道 系统 
下 系统 | 
数据 仓库 


中 间 业 务 系统 


1 


a 
i 


数据 分 析 类 应 用 


风险 绩效 
分 析 类 


决策 类 应 用 








图 11-4 某 商 业 银行 的 数据 集 市 染 构 解决 方案 


小 结 


® 数据 集 市 是 一 种 较 小 的 和 集中 的 数据 仓库 。 业 务 系统 的 数据 经 过 数据 仓库 流入 到 不 同 
的 部 门 ， 而 这 些 部 门 级 的 数据 仓库 就 称 为 效 据 集 市 。 一 般 来 次 ， 每 个 部 门 都 有 各 目的 
数据 集 市 ， 它 们 之 间 可 能 相互 关联 ， 但 本 质 上 是 相互 独立 的 。 

。 关于 数据 集 市 的 主要 应 用 ， 包 括 监控 预警 、 客 户 群 分 析 、 即 席 查 询 和 目 助 报表 。 

e。 数据 集 市 建 模 时 通 种 采用 “ 目 项 向 下 ”的 方法 ， 建 模 过 程 可 以 分 成 以 下 三 个 阶 
段 : 数据 集 市 概念 模型 设计 、 数 据 集 市 逻辑 模型 设计 和 数据 集 市 物理 模型 
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269 


290 








® 效 据 集 市 概念 模型 设计 是 通过 需求 分 机 ， 明 确 需求 洱 兰 的 业务 范围 ， 然 后 对 需求 范围 
内 的 业务 和 业务 之 间 的 关系 进行 概括 性 的 描述 ， 通 过 对 业务 对 象 的 归 类 ， 划 分 主题 
域 。 概 念 模型 的 设计 是 为 逻辑 模型 设计 做 准备 的 。 

® 数据 集 市 逻辑 模型 设计 是 通过 对 概念 模型 的 各 个 主题 域 进行 细 化 ， 同 时 根据 业务 定 
义 、 分 类 和 规划， 定义 实体 并 描述 实体 之 间 的 关系 ， 在 实体 关系 的 基础 上 明确 各 个 实 
体 的 属性 。 

® 数据 集 市 物理 模型 的 设计 依赖 于 逻辑 模型 的 完成 ， 目 的 是 提高 数据 分 析 的 效率 ， 针 对 
具体 的 分 析 需 求 采取 相应 的 优化 策略 。 数 据 集 市 的 主题 分 为 两 种 类 型 ， 综合 类 主题 和 
专业 类 主题 。 综 合 类 主题 是 从 整个 企业 的 关键 指标 进行 综合 分 析 。 专 业 类 主题 是 从 业 
务 部 门 关心 的 指标 进行 分 析 。 








宙 12 曹 金融 行业 数据 染 构 条 例 和 商业 智能 


本 章 目标 

通过 前 儿童 的 学 习 ， 我 们 已 经 对 企业 总 体 规划 、 数 据 染 构 和 商业 智能 有 一 个 整体 性 的 认 
识 。 本 章 将 重点 介绍 金融 行业 数据 架构 的 相关 案例 和 商业 智能 内 容 。 

学 习 本 草 后 ， 读 者 将 擎 握 . 

。 金融 行业 育 景 概述 

e 金融 行业 的 数据 架构 

® 传统 金融 行业 茶 系 统 的 数据 扫 构 案例 

。 互联 网 金融 行业 的 数据 染 构 案例 

。 金融 行业 商业 智能 的 育 景 和 作用 

。 金融 行业 如 何 实施 商业 智能 

。 金融 行业 的 业务 流程 和 运营 模式 优化 























12.1 金融 行业 背景 


首 抑 我 们 了 解 一 下 什么 是 金融 。 

我 们 可 以 简单 地 对 金融 进行 定义 : 金融 就 是 在 我 们 的 经 济 生 活 中 ， 通 过 银行 、 证 券 机 构 
等 中 介 ， 从 市 场 主 体 中 雄 集 资金 ， 然 后 在 借贷 给 其 他 市 场 主体 的 活动 ， 可 以 把 金融 看 做 融 
资 、 投 资 和 资金 共 集 等 三 种 经 济 话 动 ， 如 图 12-1 所 示 。 











银行 证 券 
| 





融资 、 投 资 和 资金 努 集 






图 12-1 人 金融 定义 





对 于 商业 银行 来 说 ， 它 有 大 量 的 客户 群 ， 可 以 吸收 社会 公众 存 球 ， 资 金 实 力 非 肖 雄 厚 ， 
抗 风 险 的 能 力 比 较 强 。 同 时 银行 有 大 量 的 客户 信用 数据 ， 包 括 客 户 信用 卡 消 费 信息 、 贷 球 信 
上 县、 还 秋 信 息 和 信用 信息 等 。 

随 肴 互联 网 技术 的 进步 ， 商 业 银 行 通过 互联 网 融资 会 更 有 利 ， 因 为 商业 银行 本 号 具有 展 














29] 





好 的 信用 基础 和 声誉 ， 各 种 贷 丈 、 股 票 和 债券 都 可 以 通过 互联 网 进行 交易 。 同 时 也 可 以 利用 
互联 网 技术 解决 信息 不 对 称 的 问题 。 对 于 银行 来 说 ,借贷 业务 仍然 是 商业 银行 的 核心 业务 ， 
它 的 次 利 县 收入 占 到 70% 左右 。 

目前 一 些 互 联网 企业 也 在 发 展 金融 业 ， 因 为 它 拥有 数量 庞大 的 客户 群 ， 通 过 数据 控 掘 ， 
分 析 客 户 的 真实 需求 ， 然 后 提供 所 需 的 产品 和 服务 。 对 于 互联 网 金融 来 说 ， 它 没有 改变 商业 
的 实质 ， 而 是 仅仅 改变 了 销售 与 服务 的 渠道 ， 改 善 了 客户 的 体验 。 例 如 ， 贷 球 、 股 票 和 各 种 
债券 可 以 通过 互联 网 金融 进行 交易 ， 它 与 传统 的 通过 银行 作为 中 介 的 交易 方式 不 同 ， 它 既 保 
证 了 资金 按照 供需 双方 直接 交易 ， 同 时 又 不 同 于 资本 市 场 直 接 融 资 的 另外 一 种 融资 模式 。 

我 们 可 以 把 互联 网 和 移动 互联 网 统一 称 为 互联 网 金融 ， 如 图 12-2 所 示 。 它 可 以 包括 传 
统 的 商业 银行 、 证 券 公司 等 金融 机 构 的 互联 网 化 ， 通 过 互联 网 为 客户 提供 各 种 金融 服务 。 但 
是 随 之 带 来 一 些 问 题 ， 例 如 ， 互 联网 企业 发 展 金融 业 是 否 符合 金融 行业 监管 要 求 ， 是 否 能 够 
承受 各 种 风险 ， 这 是 互联 网 企业 目前 面临 的 挑战 和 困难 。 

对 于 一 些 电 商 网 站 来 说 ， 它 可 以 根据 商品 的 点 击 频率 以 及 商品 与 商品 之 间 的 关系 ， 计 算 
出 用 户 感 兴趣 的 商品 的 概率 ， 然 后 在 网 页 上 进行 直接 推送 ， 这 种 方式 大 大 增加 了 购买 成 功 的 
概率 ， 也 降低 了 广告 宣传 的 成 本 。 

在 一 些 网 银 界面 上 ， 只 有 一 些 固定 的 营销 广告 ， 还 没有 真正 地 实现 以 客户 为 中 心 的 交叉 
营销 。 实 际 上 ， 我 们 完全 可 以 根据 客户 大 量 的 信息 ， 如 个 人 的 资产 情况 和 理财 习惯 ， 回 客户 
推送 个 性 化 的 产品 和 服务 。 一 些 电 商 企业 其 实 也 看 准 了 这 个 方向 ， 它 们 利用 互联 网 平台 ， 依 
靠 用 户 的 交易 数据 和 信用 数据 ， 开 展 互联 网 上 的 融资 业务 。 在 这 个 过 程 中 ， 借 贷 双 方 都 避 开 
了 银行 等 金融 中 介 ， 这 就 是 所 谓 的 金融 脱 媒 现象 ， 如 图 12-3 所 示 。 
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图 12-2 互联 网 金融 图 12-3 金融 脱 媒 


随 着 金融 脱 媒 现 象 越 来 越 凸 显 ， 对 商业 银行 也 提出 了 很 蜗 的 要 求 ， 虽然 商业 银行 积 索 了 
大 量 的 客户 信息 、 交 易 信 息 ， 但 是 在 数据 挖掘 方面 还 有 很 大 的 提升 空间 。 

例如 ， 在 一 些 个 人 网 银 页 面 ， 没 有 统一 的 界面 可 以 一 日 了 然 地 看 到 目 己 的 负债 情况 ， 必 
须 进 入 到 不 同 的 账户 中 查询 余额 。 表 面 上 是 页 面 的 问题 ， 实 质 上 是 目前 商业 银行 还 是 “以 
账户 为 中 心 ”， 没 有 真正 做 到 “以 客户 为 中 心 ”， 最 理想 的 状态 是 让 客户 能 够 看 到 目 寻 整个 
资产 仙 叙 的 情况 ， 然 后 通过 一 步 步 钻 取 ， 看 到 每 个 账户 的 全 貌 和 明细 。 所 以 说 ,银行 的 服务 
质量 还 有 很 大 的 提升 空间 。 

根据 以 上 的 金融 行业 背景 ， 对 商业 银行 提出 了 更 蜗 的 要 求 。 面 对 这 些 要 求 ， 商 业 银 行 应 
该 具备 哪些 能 力 呢 ?如 图 12-4 所 示 ， 应 该 具备 对 客户 的 洞察 力 、 业 准 达 销 和 跨 渠 道 客 户 管 
理 的 能 力 。 
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商业 银行 应 该 具备 的 能 
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图 12-4 商业 银行 应 该 具备 的 能 力 


(1) 对 客户 的 洞察 力 

因为 缺乏 全 企业 统一 客户 视图 以 及 有 效 利用 这 个 视图 的 能 力 ， 很 多 银行 一 直 都 难以 了 解 
客户 需求 。 商 业 银 行 可 以 利用 数据 仓库 ， 通 过 数据 分 析 和 建 模 来 了 解 银 行 客户 需求 。 

(2) 精准 营销 

商业 银行 可 以 通过 数据 仓库 来 分 析 客 户 ， 通 过 闭环 营销 ， 帮 助 银 行 利用 每 一 次 的 互动 来 
增强 对 客户 的 了 解 。 

(3) 路 渠道 客户 管理 

客户 通过 各 种 渠道 与 商业 银行 以 及 其 他 金融 机 构 进行 互动 。 对 于 金融 机 构 来 说 ， 需 要 考 
奈 如 何 使 用 多 渠道 战略 吸引 客户 ， 并 且 通 过 竖 渠 道 战 略 去 管理 与 客户 的 互动 ， 从 而 丰 曙 数据 
来 源 ， 获 得 更 加 深入 的 分 析 数 据 。 

那么 为 了 满足 这 些 能 力 要 求 ， 简 业 银 行 应 该 具备 什么 样 的 数据 染 构 呢 ? 下 面 就 来 理解 一 
下 金融 行业 的 数据 架构 。 














12.2 金融 行业 的 数据 架构 





金融 行业 的 数据 是 推动 商业 银行 等 金融 机 构 变 车 的 主要 推动 力 。 目 前 来 说 ， 商 业 银 行 之 
间 的 苋 争 越 来 越 激 烈 。 商 业 银 行 的 发 展 需 要 民 性 的 差异 化 苋 争 ， 数 据 是 苋 争 的 基础 条 件 。 很 
多 金融 机 构 通 过 数据 分 析 指 导 日 第 运营 ， 为 客户 提供 更 好 的 服务 和 产品 ， 同 时 降低 商业 银行 
运 彰 的 风险 ， 获 取 苋 争 的 优势 。 
金融 机 构 每 天 虱 在 产生 大 量 的 数据 ， 包 括 各 种 文本 、 视 频 、 图 片 、 日 志 、 首 频 和 地 理 位 
置 等 信息 ， 但 是 这 些 数据 之 间 还 存在 着 很 多 问题 ， 如 数据 存在 分 制 、 标 准 不 统一 、 难 以 共 至 
等 问题 。 
上 述 这 些 问题 导致 出 现 了 大 量 的 信息 扳 吕 ， 从 而 难以 利用 这 些 宝贵 的 数据 做 出 有 效 的 决 
策 分 析 。 很 时 以前， 商业 银行 的 数据 架构 部 是 以 统计 报表 为 主 。 在 信息 化 的 建设 过 程 中 ， 各 
个 系统 之 间 的 数据 定义 、 数 据 末 集 流程 缺少 体系 建设 ,信息 之 间 难 以 共 圣 。 同 一 数据 可 能 在 
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多 个 系统 中 重复 录入 和 存储 。 优 秀 的 数据 架构 在 金融 行业 中 显得 尤为 重要 。 

在 所 有 行业 中 ， 银 行 的 数据 管理 其 实 是 比较 困难 的 。 

1) 商业 银行 的 开 系 统 建设 较 早 ， 随 着 时 间 的 流逝 ， 系 统 变 得 越 来 越 复杂 。 

2) 商业 银行 对 于 数据 的 准确 性 要 求 是 极 高 的 ， 但 
很 多 银行 的 数据 并 没有 统一 的 标准 ， 不 同系 统 之 间 的 数 
据 还 存在 不 一 致 和 不 完整 的 现象 。 

3) 关于 商业 银行 的 数据 架构 、 数 据 治理 和 管控 是 
非常 重要 的 。 

金融 行业 的 数据 架构 一 般 包 括 以 下 几 个 部 分 : 数据 
采集 层 、 产 品 加 工 层 和 对 外 服务 层 ， 如 图 12-5 所 示 。 产品 加 工 层 对 外 服务 层 

从 数据 源 开始 ， 经 过 加 载 、 集 中 、 整 合 ， 以 及 对 外 
服务 这 几 个 过 程 ， 可 以 将 整个 数据 架构 横向 划分 成 : 源 
数据 区 、 基 础 区 、 产 品 加 工区 和 产品 服务 区 ， 如 图 12-6 














所 示 。 各 个 区 域 都 相对 独立 。 ee 
源 数据 区 
| 
Sw m= EE | 
< 
从 加 载 库 | 





| 
四 加 载 通道 | 


缴费 信息 加 载 库 | 


Ese Bs 

学 王国 | [三 
和 数据 集 市 

本 二 bc 


图 12-6 数据 架构 的 横 加 划分 

















。 源 数 据 区 

在 源 数 据 区 中 ， 可 以 进行 并 行 处 理 ， 设 计 多 个 加 载 通道 ， 提 高 加 载 的 并 行 度 和 加 载 
效率 。 在 数据 加 载 人 库 之 后 ， 再 进行 逻辑 校 验 ， 包 括 对 错误 数据 的 反 饿 ， 然 后 使 用 快 
速 迁 移 技 术 ， 将 数据 迁移 到 基础 区 中 ， 最 后 将 加 载 库 的 数据 清空 ， 以 备 下 一 阶段 的 数 


据 加 载 。 

。 基础 区 

基础 区 中 存储 的 是 数据 采集 的 信息 ， 以 满足 对 新 增 数 据 的 采集 、 加 载 和 整合 ， 最 后 为 产 
品 加 工 做 准备 。 
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e 产品 加 工区 

产品 加 工区 主要 面 癌 应用， 包括 对 数据 类 、 解 决 方案 类 和 服务 类 等 产品 的 加 工 。 产 品 加 
工区 可 以 分 成 数据 集中 区 和 加 工 单元 区 。 

(1) 数据 集中 区 

产品 加 工区 的 数据 都 来 源 于 基础 区 ， 一 般 来 说 ,产品 加 工 的 时 间 较 长 ， 为 保证 产品 加 工 
和 数据 加 载 都 有 相对 独立 的 时 间 窗 口 ， 在 产品 加 工区 划 出 一 个 数据 集中 区 ， 作 为 缓冲 层 ， 如 
图 12-7 所 示 。 














产品 加 工区 





图 12-7 数据 集中 区 


根据 产品 加 工 的 需求 ， 定 期 从 基础 多 中 抽取 产品 加 工 需 要 的 数据 ， 在 产品 加 工 之 前 建立 
一 个 数据 集中 区 ， 目 的 是 降低 基础 区 和 产品 加 工区 之 间 的 耦合 性 ， 同 时 根据 加 工 频率 的 不 
同 ， 将 数据 集中 区 分 成 日 迁移 和 月 迁移 的 数据 。 
对 于 日 加 工 的 数据 ， 每 天 都 需要 根据 数据 加 | 
载 量 ， 完 成 当日 的 加 载 任 务 ， 同 时 为 了 避免 不 同 
产品 之 间 加 工 过 程 的 相互 影响 ， 可 以 为 每 类 日 加 
工 建立 相对 独立 的 数据 库 实 例 。 数据 集中 区 
对 于 月 加 工 的 数据 ， 每 月 迁移 一 次 数据 ， 为 攻 ”办 
















了 保证 不 同 种 交 的 产品 数据 加 工 的 一 致 性 。 

在 采用 批量 数据 迁移 的 同时 ， 考 感 在 数据 迁 
移 的 时 候 暂 停 数 据 加 工 服 务 ， 尽 量 避 免 数据 迁移 
和 加 工 同 时 进行 。 

(2) 加 工 单 元 区 

在 加 工 单元 区 中 ， 提 供 各 类 产品 加 工 的 原子 


加 工 
数据 ， 如 图 12-8 所 示 。 


对 于 加 工 单元 区 来 说 ， 应 该 满足 产品 加 工时 图 12-8 加 工 单元 区 
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高 性 能 的 数据 处 理 要 求 ， 从 整体 上 来 说 ， 产 品 加 工 流 程 是 批量 的 ， 并 且 利 用 并 行 处 理 技术 ， 
实现 不 同 产品 的 加 工 需 求 。 

e 产品 服务 区 

产品 服务 区 主要 提供 对 外 有 服务， 存储 数据 类 与 工具 类 产品 的 数据 ， 以 及 各 种 产品 查询 记 
录 ， 如 图 12-9 所 示 。 











对 外 服务 存储 数据 类 与 工具 类 
产品 数据 
图 12-9 产品 服务 区 


产品 从 整体 上 可 以 分 为 离线 查询 产品 和 实时 查询 产品 ， 两 类 产品 分 别 采 用 不 同 的 数据 组 
织 形式 ， 对 于 实时 查询 产品 ， 可 以 快速 地 反馈 查询 结 来 。 

产品 服务 区 的 数据 按照 产品 更 新 频 度 又 分 为 日 更 新 和 月 更 新 两 种 类 型 ， 更 新 频 度 不 
辣 的 产品 提供 服务 的 时 间 范 围 不 同 ， 日 迁移 产品 可 以 提供 全 天 的 服务 。 各 种 产品 查询 
的 记录 统一 存 人 备 在 产品 服务 区 中 ， 根 据 产品 加 工 的 需求 ， 定 期 将 查询 记录 迁移 至 产品 
加 工区 。 

产品 服务 区 的 建设 方案 : 

首先 应 该 建设 数据 采集 平台 ， 将 采集 到 的 数据 加 载 到 基础 库 中 ， 实 现 数据 处 理 的 批量 
化 ， 可 以 利用 多 加 载 通 道 实现 并 行 加 载 的 功能 。 

其 次 ， 利 用 数据 仓库 技术 进行 多 维 分 析 和 挖掘 。 一 般 来 说 ， 数 据 仓库 包括 数据 获取 层 、 
数据 存储 层 和 前 端 应 用 层 ， 如 图 12-10 所 示 。 

。 效 据 犹 取 层 


产品 查询 记录 











数据 获取 层 把 基础 层 相关 的 数据 经 过 抽取 、 转 换 和 清洗 ， 按 照 统一 的 模式 和 不 同 的 主题 
进行 集成 ， 厂 载 到 数据 仓库 中 。 
。 数据 存储 层 





数据 存储 层 主要 包括 数据 仓库 和 数据 集 市 。 数 据 仓库 整合 系统 全 局 的 共 至 信息 ， 它 包含 
历史 数据 信息 ， 记 录 了 过 去 菏 一 时 间 扣 到 目前 各 个 阶段 的 信息 ， 通 过 这 些 信息 ， 可 以 对 企业 
的 发 展 状况 和 未 来 趋势 做 出 分 析 和 预测 。 数 据 集 市 是 为 了 特定 的 目的 和 范围 ， 从 数据 仓库 中 
独立 出 来 的 一 部 分 数据 。 

® 前 闹 应 用 层 

前 端 应 用 层 包 括 统 计 报 表 和 数据 挖 据 ， 为 用 户 访问 数据 仓库 提供 了 手段 。 同 时 也 预 留 了 
专业 统计 分 析 软 件 的 接口 。 





290 


统计 报表 数据 挖掘 











数据 集 市 1 数据 集 市 2 数据 集 市 3 骨 
, z 层 
数 
据 
存 
储 
层 
数据 缓冲 区 
< 
数 
所 
数据 源 1 数据 源 2 数据 源 3 红 





图 12-10 数据 获取 层 、 数 据 存 储 层 和 前 端 应 用 层 
金融 行业 数据 染 构 的 特点 ， 如 图 12-11 所 示 。 





需要 把 客户 的 数据 集中 起 来 ， 并 且 数据 仓库 不 仅仅 是 存放 数据 的 地 方 ， 
使 用 数据 仓库 进行 有 效 的 管理 同时 还 担负 着 把 信息 转化 成 知识 ， 
知识 转化 成 价值 的 责任 


通过 数据 仓库 可 以 使 业务 通过 数据 仓库 技术 ， 对 诸 
人 员 对 客户 有 一 个 全 面 的 如 AIM 交易 信息 和 柜台 
人 了解 提高 对 客户 的 服务 交易 信息 进行 整合 ， 为 客 
质量 二 方 提供 宥 寻 对 性 的 服务 

















图 12-11 金融 行业 数据 架构 的 特 


1) 对 于 商业 银行 来 说 ,为 了 全 面 了 解 客 户 的 需求 ， 并 且 提 局 服务 的 质量 ,需要 把 客户 

的 数据 集中 起 来 ， 并 且 使 用 数据 仓库 进行 有 效 的 管理 。 
2) 一 般 来 说 ， 银 行使 用 数据 库 技术 文 持 各 种 交易 业务 。 数 据 仓 库 是 把 企业 内 部 的 分 散 
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的 数据 库 进 行 集成 ， 形 成 统一 的 存储 体系 ， 相 对 于 数据 库 来 说 ， 数 据 仓库 不 仅仅 是 存放 数据 
的 地 方 ， 同 时 还 担负 春 把 信息 转化 成 知识 ， 知 识 转化 成 价值 的 责任 。 

3) 利用 数据 仓库 技术 可 以 为 银行 市 来 很 多 利益 。 例 如 ， 通 过 数据 仓库 可 以 使 业务 人 员 
对 客户 有 一 个 全 面 的 了 解 ， 提 高 对 客户 的 服务 质量 。 

4) 通过 数据 仓库 技术 ， 对 诸如 ATM 交易 信息 和 柜台 交易 信息 进行 整合 ， 为 客 尸 提供 有 
针对 性 的 服务 。 

















12.3 金融 行业 某 系统 的 数据 架构 案例 


12.3.1 传统 金融 行业 攻 系 统 的 数据 染 构 条 例 


数据 膝 构 是 企业 以 构 的 重要 组 成 部 分 ， 帮 助 金融 行业 有 效 地 分 配 、 部 车 和 使 用 数 
据 ， 实 现 数据 的 合理 组 织 和 有 效 共 至 ， 从 而 保证 数据 在 各 个 系统 之 间 的 一 任性 、 完 整 
性 和 有 效 性 。 

我 们 可 以 把 传统 金融 行业 果 系统 的 数据 架构 分 成 以 下 几 个 部 分 : 源 数据 层 、 内 容 管 理 、 
数据 交换 层 、 数 据 基础 屋 、 数 据 加 工 层 和 应 用 层 ， 如 图 12-12 所 示 。 其 中 ， 源 数据 层 提供 
产品 加 工 和 对 外 服务 的 所 有 数据 。 内 容 管 理 主 要 提供 对 非 结构 化 数据 存储 、 访 问 和 管理 的 能 
力 。 数 据 交 换 层 担负 看 系统 内 部 各 个 数据 库 之 间 的 数据 交换 任务 。 数 据 基 础 层 进 行 格 式 校 验 
及 逻辑 校 验 ， 形 成 唯一 可 信 的 数据 源 。 数 据 加 工 层 的 数据 来 源 为 数据 基础 层 ， 并 将 加 工 处 理 
的 数据 提供 给 应 用 层 。 应 用 层 可 以 包括 查询 类 应 用 和 分 析 类 产品 应 用 。 











1 源 数据 层 源 数据 层 提供 产品 加 工 和 对 外 服务 的 所 有 数据 


内 容 管 理 主要 提供 对 非 结 构 化 数据 存储 、 访 问 和 管理 的 能 力 


数据 基础 层 进行 格式 校 验 及 逻辑 校 验 ， 形 成 唯一 可 信 的 数据 源 


数据 加 工 层 的 数据 来 源 为 数据 基础 层 ， 并 将 加 工 处 理 的 数据 


提供 给 应 用 层 





3. 数据 交换 层 数据 交换 层 担负 着 系统 内 部 各 个 数据 库 之 间 的 数据 交换 任务 
应 用 层 可 以 包括 查询 类 应 用 和 分 析 类 产品 应 用 ] 





图 12-12 传统 金融 行业 某 系 统 的 数据 架构 


1. 源 数 据 层 

源 数据 层 提供 产品 加 工 和 对 外 服务 的 所 有 数据 。 源 数据 层 应 该 满足 灵活 和 自动 化 的 要 
求 。 它 的 特点 主要 包括 以 下 几 个 方面 : 

1) 需要 描述 源 数 据 层 采集 哪些 数据 、 数 据 源 的 类 型 和 采集 方式 等 内 容 。 例 如 ， 数 据 源 
可 以 包括 Excel、 数 据 库 和 通过 网 络 疏 虫 得 到 的 数据 等 。 
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2) 需要 摘 述 数据 源 的 内 容 格式 ， 如 结构 化 数据 和 非 结 构 化 数据 。 
3) 需要 描述 数据 源 的 频率 特征 。 
举例 来 说 ， 源 数据 层 的 主要 特点 见 表 12-1。 

表 12-1 源 数据 层 的 主要 特点 


数据 来 源 采集 内 容 数据 格式 数据 采集 方式 
政府 部 门 行政 处 神 信 息 和 奖励 信息 结构 化 数据 接口 方式 
互联 网 互联 网 信息 非 结 构 化 数据 网 络 爬 虫 方式 


客户 身份 信息 、 职 业 信 息 、 居 住 











商业 银行 信息 、 联 络 信 息 、 客 户 概况 信息 等 | 结构 化 数据 接口 方式 
内 容 





手工 录入 的 数据 手工 录入 的 信息 结构 化 数据 le 








e 数据 来 源 可 以 包括 政府 部 门 、 互 联网 、 商 业 银 行 和 手工 录入 的 数据 等 。 

e 数据 源 的 格式 包括 结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数据 。 

e 数据 采集 方式 包括 接口 方式 、 非 接口 方式 、 网 络 息 虫 方式 和 FTP 方式 等 。 

其 中 对 于 接口 方式 ， 它 主要 是 保证 数据 源 端 的 数据 质量 ， 但 是 对 于 开发 、 调 试 、 测 试 和 
技术 方面 的 要 求 较 高 。 对 于 非 接口 方式 ， 特 点 是 前 期 投入 较 少 ， 对 于 技术 方面 要 求 不 高 ， 但 
是 数据 质量 不 能 保证 ， 对 于 人 工 的 依赖 较 强 。 对 于 网 络 疏 虫 的 采集 方式 ， 是 从 公 网 上 获取 非 
结构 化 数据 ， 但 收集 的 数据 量 较 大 ， 而 单个 数据 的 价值 很 低 ， 投 入 的 人 力 和 技术 也 很 大 。 对 
于 FTP 方 式 ， 是 指 通过 大 批量 非 结 构 化 数据 的 上 传 进 行 采 集 ， 但 是 数据 安全 度 较 低 ， 比 较 
适合 非 结 构 化 数据 的 上 传 。 

2. 内 容 管理 ni 

除了 从 相关 机 构 采 集结 构 化 的 数据 外 ， 还 互联 网 信息 
可 以 从 互联 网 或 者 其 他 渠道 采集 各 种 非 结构 化 
的 数据 。 采 集 的 非 结 构 化 数据 包括 ; 互联 网 信 世人 2 于 时 
息 、 社 交 网 络 信息 或 者 其 他 渠道 提供 的 非 结 构 ”全 
化 数据 ， 如 图 12-13 所 示 。 

一 般 来 说 ,我们 可 以 通过 网 络 疏 虫 等 技术 
收集 各 种 非 结 构 化 数据 ， 通 过 内 容 管理 存储 非 
结构 化 数据 ， 建 立 非 结构 化 数据 的 元 数据 信息 ， 这 些 元 数据 信息 可 以 存储 在 Hadoop 平台 中 。 
其 中 非 结构 化 元 数据 可 能 包括 信息 标签 、 摘 要 、 索 引 和 日 志 等 。 然 后 ， 在 此 基础 上 ， 与 结构 
化 数据 进行 关联 ， 以 供 分 析 使 用 。 这 种 方式 实现 了 非 结 构 化 数据 与 结构 化 数据 的 整合 ， 以 供 
后 续 加 工 和 使 用 ， 如 图 12-14 所 示 。 

















渠道 提供 的 
非 结 构 化 数据 





图 12-13 ”内容 管理 











内 容 管理 
( 半 结 构 化 / 非 结构 化 数据 ) Hadoop 
网 络 候 虫 等 技术 > | 
ad 9 
EE \ 





图 12-14 非 结构 化 数据 与 结构 化 数据 的 整合 
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3. 数据 交换 层 

(1 ) 数据 交换 层 的 任务 和 功能 

数据 交换 层 承担 着 数据 库 之 间 的 数据 交换 任务 ， 同 时 也 承担 着 外 部 文件 和 数据 库 之 间 的 
交换 任务 。 数 据 交换 层 中 的 内 部 交换 如 图 12-15 所 示 。 








图 12-15 数据 交换 层 中 的 内 部 交换 
数据 交换 层 中 的 外 部 交换 如 图 12-16 所 示 。 


数据 源 
- 文件 传输 








洒 党 六 复 淡 


WR 





图 12-16 数据 交换 层 中 的 外 部 交换 


数据 交换 层 具 备 数 据 抽取 、 质 量 检查 、 数 据 转 换 、 
数据 加 载 四 大 功能 ， 如 图 12-17 所 示 。 

1) 数据 抽取 。 数 据 抽 取 是 从 源 数据 层 获 取 数 据 ， 
它 可 以 实时 或 者 定期 地 获取 增 量 数据 ， 通 过 数据 库 连 
接 的 方式 ， 也 可 以 通过 文件 交换 的 方式 进行 数据 抽取 ， 
抽取 的 范围 可 以 是 结构 化 数据 和 非 结构 化 数据 。 

2) 质量 检查 。 经 过 质量 检查 ( 见 图 12-18)， 对 
数据 进行 清洗 、 取 伟 和 去 重 ， 生 成 清洗 后 的 数据 文件 ， 
满足 数据 质量 的 基本 要 求 。 数 据 交 换 层 的 主要 工作 就 
是 进行 质量 检查 。 不 合格 的 文件 是 没有 通过 质量 验证 
的 数据 。 质 量 检 查 的 内 容 包 括 数据 的 类 型 、 格 式 和 长 
度 等 内 容 。 

3) 数据 转换 。 数 据 转换 的 功能 是 对 数据 质量 清洗 后 的 数据 按照 业务 规则 进行 转换 。 

4) 数据 加 载 。 数 据 加 载 的 功能 是 创建 可 导入 的 文件 ， 然 后 批量 或 者 单条 记录 地 导 和 人 到 
系统 中 。 
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图 12-17 数据 交换 层 功 能 


校 验 通过 的 文件 


数据 交换 层 





数据 文人 
> 数据 一 致 性 不 合格 的 文件 


数据 完整 性 
数据 准确 性 











图 12-18 质量 检查 
(2) 数据 交换 层 的 功能 描述 
1) 数据 交换 层 主要 是 数据 交换 的 场所 ， 它 承担 了 各 个 层次 之 间 的 交换 任务 。 


2) 数据 交换 层 支持 外 部 交换 的 校 验 过 程 。 
如 图 12-19 所 示 ， 届 辑 校 验 主要 是 缓冲 区 与 加 载 区 的 数据 进行 关联 校 验 ， 经 过 格式 校 


验 和 逻辑 校 验 之 后 ， 将 数据 加 载 到 加 载 区 中 。 


山王 
器 下 
> 
本 


格式 校 验 逻辑 校 验 


与 数据 加 载 区 数据 关联 校 验 


me er 和 





图 12-19 校 验 过 程 


3 ) 数据 交换 层 承担 着 内 部 系统 和 外 部 系统 的 数据 交换 任务 。 
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如 图 12-20 所 示 ， 对 于 主 数 据 来 说 ， 可 以 将 唯一 身份 信息 通过 数据 交换 层 传输 给 外 部 
系统 。 对 于 数据 仓库 来 说 ， 可 以 将 质量 检查 绪 果 通过 数据 交换 层 传输 给 外 部 系统 。 对 于 碍 询 
库 来 说 ， 可 以 将 查询 记录 通过 数据 交换 层 传输 给 外 部 系统 。 

唯一 身份 信息 ”质量 检查 结 示 分析 查询 记录 分 析 





l 主 数据 | 时 查询 库 





图 12-20 数据 交换 层 文 持 内 部 系统 和 外 部 系统 之 间 的 数据 交换 


总 之 ， 数 据 交 换 层 文 持 系统 内 部 系统 和 外 部 系统 之 间 的 数据 交换 。 

4) 数据 交换 层 文 持 系统 内 部 的 数据 在 各 个 数据 库 之 间 的 流转 。 

5) 数据 交换 层 的 订阅 发 布 模式 可 以 实现 一 源 多 目标 的 数据 更 新 ， 如 图 12-21 所 示 ， 当 
数据 源 发 出 一 份 数 据 文件 后 ， 根 据 订 阅 配 置信 息 ， 将 该 数据 文件 传输 到 指定 位 置 ， 然 后 根据 
不 同 的 转换 规则 ， 把 数据 加 载 到 不 同 的 目标 库 中 。 





根据 订阅 配置 信息 ， 把 数据 文件 传输 到 指定 的 地 点 
| 转换 /加载 


L 一 一 一 





转换 /加载 
根据 不 同 的 业务 转换 规则 ， 进 行 数据 加 载 


图 12-21 数据 交换 层 的 订阅 发 布 模式 
6) 数据 在 传输 过 程 中 不 进行 任何 加 工 的 动作 ， 如 图 12-22 所 示 。 同 时 确保 数据 传输 与 
加 工 能 够 以 流水 线 作 业 的 方式 进行 ， 同 时 细 化 作业 任务 ， 分 析 作 业 任 务 之 间 的 依赖 关系 ， 如 
图 12-23 所 示 。 
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数据 传输 过 程 中 
不 执行 加 工 动作 


CD 







数据 源 数据 传输 和 加 工 





图 12-22 ”数据 在 传输 过 程 中 不 进行 加 工 的 动作 


数据 传输 与 加 工 
能 够 以 流水 线 作 
业 方 式 进行 





全、 推荐 该 方法 
数据 源 数据 传输 缓冲 区 目标 库 \ | / 
= = 国 - 








图 12-23 ”数据 传输 与 加 工 以 流水 线 作业 的 方式 进行 


4. 数据 基础 层 

数据 基础 层 是 对 抽取 的 数据 进行 格式 校 验 和 逻辑 校 验 ， 它 作为 系统 唯一 可 信 的 数据 源 。 

数据 基础 层 包 含 三 个 部 分 : 临时 加 载 区 、 基 础 库 和 非 结 构 化 数据 ， 如 图 12-24 所 示 。 
数据 基础 层 


临时 加 载 区 


非 结 构 化 数据 





图 12-24 数据 基础 层 
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临时 加 载 区 作为 校 验 数 据 进入 系统 的 唯一 途径 ， 主 要 包括 缓冲 区 和 加 载 区 。 缓 冲 区 是 为 
数据 交换 设置 的 临时 区 域 ， 为 后 续 的 逻辑 校 验 做 准备 。 而 加 载 区 主要 完成 格式 校 验 和 逻辑 校 
验 功能 ， 如 图 12-25 所 示 。 

基础 库存 储 的 是 系统 唯一 可 信 的 数据 源 ， 存 储 的 期 限 根 据 业 务 需求 而 定 。 它 主要 存储 校 
验 通 过 的 数据 。 

5. 数据 加 工 层 

数据 加 工 层 的 数据 来 源 于 数据 基础 层 的 基础 库 ， 然 后 将 加 工 处 理 后 的 数据 提供 给 应 用 
层 。 数 据 加 工 层 包括 查询 库 、 主 数据 和 数据 仓库 ， 如 图 12-26 所 示 。 


数据 加 工 层 






E 临时 加 载 区 “ 
格式 校 验 通 过 的 数据 落地 到 缓冲 区 中 





缓冲 区 的 数据 和 数据 加 载 区 数据 关联 进行 逻辑 校 验 


图 12-25 ”临时 加 载 区 图 12-26 数据 加 工 层 
数据 加 工 层 的 流程 如 图 12-27 所 示 。 
数据 基础 层 数据 加 工 层 


a 虱 时 加 载 区 
| 


非 结构 化 数据 


图 12-27 数据 加 工 层 的 流程 





(1) 查询 库 
对 于 查询 库 来 说 ， 要 求 时 效 性 高 。 基 础 库 将 数据 导出 成 增 量 文件 ， 加 载 到 查询 库 中 。 
304 





(2) 主 数据 

主 数据 主要 描述 商业 银行 核心 的 信息 ， 例 如 对 于 丹 份 信息 识别 和 归并 的 整合 ， 尤 其 是 当 
商业 银行 从 以 “上 账户 为 中 心 ” 回 以 “以 客户 为 中 心 ” 转 变 的 时 候 。 对 于 客户 吴 份 信 息 的 整 
合 是 非常 重要 的 。 主 数据 将 整合 后 的 结果 再 提供 给 数据 仓库 使 用 。 

对 于 号 份 信息 整合 来 说 ， 可 以 按照 时 间 的 先后 顺序 进行 履 闸 ， 或 者 采 用 全 部 保留 的 方 
式 。 对 于 疑似 号 份 信息 的 整合 ， 有 可 能 需要 经 过 人 工 判 断 。 

主 数据 也 可 以 存储 商业 银行 的 客户 关联 信息 。 

(3) 数据 仓库 

数据 仓库 一 般 包括 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 。 数 据 仓 库 有 以 下 两 个 特性 ， 
如 图 12-28 所 示 。 









数据 仓库 整合 系统 
局 的 共享 信息 


数据 仓库 中 的 数据 包 
含 历史 数据 





图 12-28 数据 仓库 的 特性 

1) 数据 仓库 整合 系统 全 局 的 共享 信息 。 

可 以 收集 、 清 洗 、 转 换 和 存储 各 种 操作 型 的 数据 源 。 

2) 数据 仓库 中 的 数据 包含 历史 数据 。 

它 记 录 了 系统 从 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 信息 ， 通 过 对 这 些 信息 的 分 析 ， 可 以 
为 企业 的 发 展 状况 和 未 来 趋势 做 出 分 析 预 测 。 其 中 数据 仓库 的 数据 包括 基础 库 的 数据 、 查 询 
库 的 数据 和 主 数 据 整 合 后 的 身份 信息 数据 。 

e。 数据 仓库 基础 数据 层 的 特点 

数据 仓库 基础 数据 层 的 数据 是 按照 模型 进行 组 织 的 。 基 础 数据 层 的 数据 作为 汇总 层 或 者 
库 内 集 市 的 数据 源 。 基 础 数据 层 的 数据 一 般 不 做 删除 。 

e。 数据 仓库 汇总 数据 层 的 特点 

数据 仓库 汇总 数据 层 主要 是 对 基础 数据 层 的 数据 进行 轻 度 汇 总 ， 目 的 是 减少 共性 的 
加 工 。 

汇总 数据 层 的 建设 是 随 着 需求 的 增加 而 不 断 扩 展 的 ， 大全 
对 于 汇总 数据 层 的 处 理 也 是 以 创建 中 间 表 为 主 , 目的 是 为 。 从 
后 续 数 据 加 工 使 用 做 准备 的 ， 同 时 提高 了 数据 仓库 的 性 能 。 

e 库 内 集 市 层 的 特点 

一 般 来 说 ， 数 据 集 市 层 是 根据 应 用 需求 而 形成 的 数 
据 集 合 ， 它 支撑 了 各 个 部 门 的 业务 应 用 。 每 个 部 门 都 可 
以 根据 各 自 的 需求 ， 在 集 市 上 进行 定义 和 维护 。 

数据 集 市 可 以 分 成 分 析 类 集 市 、 研 发 类 集 市 和 管理 
类 集 市 ， 如 图 12-29 所 示 。 图 12-29 数据 集 市 
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e。 分 析 类 集 市 
分 析 类 集 市 是 通过 数据 挫 掘 的 方法 帮助 企业 提高 业务 运 俏 效率 ， 发 现 企业 内 部 的 规律 和 发 
展 趋 势 。 分 析 类 集 市 可 以 包括 文本 分 析 、 模 拟 分 析 、 预 测 分 析 和 可 视 化 分 析 等 ， 见 表 12-2。 
表 12-2 分 析 类 集 市 
分 析 类 集 市 描 述 


文本 分 析 是 对 各 种 非 结 构 化 文本 数据 进行 分 析 ， 将 各 种 单词 、 短 语 赋 对 语义 ,我们 通过 词 频 
统计 ,或 者 更 复杂 的 过 程 进行 分 析 。 举 例 来 说 ,情感 分 析 是 从 大 量 的 人 群 中 挖掘 出 对 茶 个 企业 

















太公 全。 | 或 者 机 构 的 总 体 观点 ， 同 时 提供 客户 对 相关 机 构 的 各 种 评论 和 感受 ， 使 得 企业 或 者 机 构 可 以 更 
好 地 掌握 客户 感受 ， 分 析 客户 的 真正 需求 

模拟 分 析 用 先进 的 手段 模拟 业务 流程 、 行 为 ， 帮 助 企业 制定 未 来 业务 发 展 的 方向 

预测 分 析 分 析 历史 和 当前 数据 ， 预 测 企业 未 来 的 业务 方向 

可 视 化 分 析 通过 图 表 、 地 图 等 各 种 可 视 化 的 形式 ， 分 析 各 种 趋势 

e 人 研发 类 集 市 





钱 发 类 集 市 是 支撑 各 个 业务 部 门 的 应 用 系统 ， 主 要 用 于 支持 人 研究 分 析 类 的 工作 ， 同 时 剑 
发 类 集 市 也 可 以 支持 临时 的 抽 数 功能 。 

。 管理 类 集 市 

管理 类 集 市 是 指 为 了 提高 运营 管 理 而 进行 的 整合 分 析 。 管 理 类 集 市 包括 : 管理 溉 驶 舱 、 
固定 报表 、OLAP 分 析 、KPI 等 ， 见 表 12-3。 


表 12-3 管理 类 集 市 
































管理 类 集 市 描 述 
ed 对 高 层 人 员 关 注 的 经 营 活 动 关键 指标 做 定制 化 的 展示 ， 并 且 以 各 种 直观 的 图 表 形 
启 理 芍 驶 舱 ER 
式 进 行 展 示 
固定 报表 以 固化 报表 的 形式 进行 数据 展示 
OLAP 分 析 以 多 维 分 析 的 方式 帮助 决策 者 发 现 问题 、 追 溯 问 题 根 源 和 预测 发 展 趋势 
KPI 业务 运营 和 绩效 管理 关键 指标 





其 中 基础 数据 库 和 数据 仓库 基础 层 的 区 别 : 

1) 在 组 织 形 式 上 ， 基 础 库 是 贴 数 据 源 的 数据 ， 时 效 性 较 高 ， 文 持 对 基础 产品 的 加 工 ， 
为 数据 仓库 提供 数据 源 。 

2) 数据 仓库 基础 层 是 按照 第 三 范式 的 方式 进行 存储 ， 时 歼 性 较 低 。 数 据 仓库 基础 层 文 
持 汇总 加 工 ， 同 时 支持 高 级 分 析 。 

6. 应 用 层 

应 用 层 包 括 查 询 类 应 用 、 分 析 类 应 用 和 管理 类 应 用 。 应 用 层 的 数据 可 以 批量 加 载 ， 负 责 
对 外 提供 服务 ， 同 时 查询 记录 可 以 回流 到 数据 仓库 的 基础 层 ， 以 文 持 分 析 类 应 用 和 管理 类 
应 用 。 

主 数据 的 身份 整合 信息 回流 到 数据 仓库 基础 层 ， 以 支持 分 析 类 应 用 和 管理 类 应 用 。 

应 用 层 的 数据 流转 如 图 12-30 所 示 。 

查询 类 应 用 时 效 性 较 高 ， 一 些 产 品 快照 信息 和 查询 记录 可 以 返回 给 数据 仓库 。 通 过 对 产 
品 数据 的 读 写 分 离 ， 可 以 最 大 限度 地 提高 产品 查询 效率 。 
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图 12-30 ”应 用 层 的 数据 流转 


12.3.2 互联 网 金融 行业 的 数据 架构 


互联 网 金融 实质 上 是 互联 网 技术 与 金融 服务 的 结合 。 互 联网 技术 提高 了 金融 行业 的 服务 
效率 ， 折 宽 了 渠道 和 金融 服务 模式 ， 但 是 没有 改变 金融 行业 的 本 质 。 互 联网 金融 并 没有 改变 
传统 金融 行业 中 的 存款 、 贷 款 、 汇 球 和 投资 理财 等 功能 。 同 时 互联 网 金融 企业 依赖 于 传统 商 
业 银 行 提 供 的 号 份 信息 认证 等 服务 。 所 以 说 互联 网 金融 是 对 传统 金融 的 有 益 补 充 。 

但 是 互联 网 金融 与 传统 的 金融 有 一 定 的 区 别 。 例 如 ， 互 联网 金融 非常 重视 客户 的 体验 ， 
特别 是 方便 性 和 快捷 性 ， 但 在 安全 性 和 严格 性 上 还 要 不 断 提 高 。 我 们 应 该 对 互联 网 金融 机 构 
提出 产 格 的 监管 要 求 ， 同 时 也 对 商业 银行 的 创新 战略 提供 新 的 思路 。 

在 互联 网 金融 的 背景 下 ， 商 业 银行 的 创新 思路 包括 以 下 几 个 方面 ， 如 图 12-31 所 示 。 











图 12-31 商业 银行 的 创新 思路 


(1) 重视 客户 的 体验 

商业 银行 要 以 客户 为 中 心 ， 从 理解 客户 的 角度 设计 金融 产品 和 服务 内 容 。 同 时 优化 银行 
内 部 工作 流程 ， 简 化 客户 的 操作 ， 为 客户 提供 方便 快捷 的 高 效 服务 。 商 业 银行 可 以 利用 各 种 
资源 ， 例 如 移动 终端 、 微 博 、 微 信和 各 种 社交 网 站 ， 开 展 全 方位 的 客户 营销 。 
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(2) 加 强 对 服务 、 业 务 模式 的 创新 


商业 银行 需要 加 强 对 服务 、 业 务 模式 的 创新 ， 包 括 支 付 手 段 的 创新 、 开 发 各 种 适合 大 小 





额 支 付 的 产品 和 对 各 种 融资 产品 的 创新 等 内 容 。 
(3) 运用 大 数据 的 技术 


对 于 大 数据 技术 的 运用 是 提升 商业 银行 核心 范 争 力 的 基础 ， 它 可 以 利用 大 数据 技术 优化 


业务 流程 ， 提 升 安全 与 风险 的 管理 能 


下 面 分 析 一 下 互联 网 金融 和 传统 金融 的 区 别 ， 见 表 12-4。 
表 12-4 互联 网 金融 和 传统 金融 的 区 别 











项 目 互联 网 金融 传统 金融 
客户 包括 银行 客户 和 以 银行 客户 为 主 
产品 包括 所 有 的 互联 网 金融 产品 和 服务 以 传统 商业 银行 产品 和 服务 为 主 
业务 需求 业务 需求 变化 较 快 相对 固定 ， 同 时 有 金融 监管 机 构 进 行 监督 
渠道 所 有 与 互联 网 相关 的 渠道 包括 实体 柜 面 、 网 上 银行 、ATM 、 手 机 银行 等 








互联 网 金融 行业 的 IT 染 构 主要 包括 应 用 染 构 、 








数据 染 构 和 技术 架构 ， 如 图 12-32 所 示 。 






数据 架构 








图 12-32 互联 网 金融 行业 的 开 架构 


互联 网 金融 行业 的 应 用 染 构 需要 重点 考虑 技术 的 开放 性 ， 包 括 对 大 规模 并 发 和 快速 响应 
需求 的 支持 。 数 据 染 构 主 要 考虑 提高 数据 的 智能 程度 ， 增 强 客户 的 体验 度 。 技 术 染 构 强 调 建 
立 一 个 安全 的 体系 架构 。 

(1) 互联 网 金融 行业 的 应 用 染 构 

应 用 染 构 强调 以 客户 体验 为 中 心 ， 数 据 驱动 为 主 的 原则 。 其 中 面向 服务 的 架构 设计 ， 可 
以 包括 渠道 层 、 业 务 操作 层 、 产 品 服 务 层 、 决 策 支 持 层 和 基础 应 用 层 等 几 个 部 分 。 

(2) 互联 网 金融 行业 的 数据 架构 

数据 架构 主要 强调 数据 的 一 致 性 和 实时 性 ， 可 以 考虑 对 结构 化 数据 、 半 结构 化 数据 和 非 
机 构 化 数据 的 存储 。 同 时 考虑 使 用 分 布 式 云 计算 技术 ， 以 满足 对 海量 数据 存储 、 计 算 和 多 用 
户 并 发 的 使 用 。 在 大 数据 技术 的 使 用 上 ， 可 以 考虑 使 用 分 布 式 文件 系统 、NoSQL 数据 库 、 
流 数据 处 理 技术 等 。 
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(3) 互联 网 金融 行业 的 技术 架构 
技术 架构 主要 强调 构建 一 个 安全 架构 体系 ， 主 要 包括 合 规 、 治 理 、 人 员 、 运 维和 各 种 流 
程 监控 等 。 同 时 业务 可 以 扩展 到 云 平 台 、 虚 拟 化 环境 和 社交 网 络 平 台 。 





12.4 金融 行业 的 商业 智能 


12. 4.1 人 金融 行业 商业 智能 的 背景 和 作用 


在 当前 市 场 苑 争 激烈 和 了 疝 业 银行 业务 转型 的 大 背景 下 ， 商 业 银 行 正 面临 着 各 种 机 过 和 挑 
战 。 利 用 商业 智能 技术 ， 可 以 大 大 提高 商业 银行 的 服务 水 平和 内 部 管理 水 平 。 特 别 是 在 数据 
大 集中 的 背景 下 ， 商 业 智 能 已 经 成 为 商业 银行 信息 化 建设 的 必然 选择 之 一 。 

商业 智能 (BI) 是 对 各 种 信息 收集 、 管 理 和 分 析 的 过 程 ， 目 的 是 使 企业 的 决策 者 能 够 
获得 知识 和 洞察 力 。 商 业 吞 能 一 般 由 数据 仓库 、 数 据 集 市 、 数 据 挖掘 和 在 线 分 析 等 部 分 组 
成 。 商 业 知 能 提高 了 企业 和 商业 银行 的 管理 水 平 ， 强 化 了 对 风险 管理 和 产品 的 创新 能 

同时 商业 智能 可 以 更 好 地 帮助 企业 抓 住 机 遇 ， 应 对 市 场 挑战 。 商 业 智 能 的 作用 主要 
体现 在 以 下 几 个 方面 : 对 客户 的 信息 进行 整合 ， 商 业 银 行 的 风险 管理 能 力 将 会 得 到 提 
高 ， 商 业 银 行 可 以 实现 内 部 的 精细 化 管理 ， 帮 助 商 业 银 行 发 现 有 价值 的 客户 群体 ， 如 
图 12-33 所 示 。 


























对 客户 的 信息 进行 整合 商业 银行 的 风险 管理 能 力 将 会 


得 到 提高 


商业 银行 可 以 实现 内 看 帮助 商业 银行 发 现 有 
部 的 精细 化 管理 看 价值 的 客户 群体 





图 12-33 商业 智能 的 作用 


(1) 对 客户 的 信息 进行 整合 

通过 商业 智能 技术 ， 可 以 对 客户 的 信息 进行 整合 ， 能 够 反映 客户 信息 的 全 貌 ， 使 得 管理 
者 可 以 从 产品 类 型 、 行 业 、 机 构 等 不 同 的 角度 对 客户 关心 的 各 类 指标 进行 分 析 ， 使 得 分 析 更 
具有 针对 性 。 

(2) 商业 银行 的 风险 管理 能 力 将 会 得 到 提高 

通过 商业 智能 技术 ， 商 业 银行 的 风险 管理 能 力 将 会 得 到 大 幅度 提高 ， 例 如 各 种 的 操作 风 
险 、 客 户 信用 风险 、 市 场 风险 和 业务 运营 风险 等 将 会 得 到 有 效 控制 。 通 过 集中 数据 ， 使 得 风 
险 管理 机 构 能 够 全 面 掌握 数据 ， 可 以 根据 对 历史 数据 的 分 析 ， 实 现 当前 业务 的 预警 和 风险 
评级 。 
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(3) 商业 银行 可 以 实现 内 部 的 精细 化 管理 

通过 商业 乔 能 技术 ， 商 业 银 行 可 以 实现 内 部 的 精细 化 管理 ,使 得 各 种 绩效 考核 和 成 本 省 
理 更 准确 ， 同 时 能 够 在 产品 、 客 户 、 机 构 等 各 条 业务 线 上 对 指标 进行 量化 。 

(4) 帮助 商业 银行 发 现 有 价值 的 客户 群体 

通过 商业 智能 拉 术 ， 可 以 帮助 银行 发 现 有 价值 的 客户 群体 ， 针 对 这 些 客户 的 价值 度 和 页 
献 度 ， 有 针对 性 地 设计 出 更 好 的 金融 产品 ， 从 而 更 好 地 为 客户 服务 ， 同 时 实现 利润 的 最 
大 化 。 


12.4.2 金融 行业 如 何 实施 商业 智能 


金融 行业 商业 智能 的 实施 离 不 开 高 层 领导 的 重视 ， 同 时 需要 投入 大 量 的 资源 。 在 制定 整 
体 规 划 的 同时 ， 需 要 明确 各 个 阶段 的 实施 重点 。 可 以 按照 商业 智能 的 实施 方法 论 开 展 工 作 ， 
包括 建立 数据 仓库 、 数 据 集 市 、 元 数据 管理 系统 、OLAP 等 。 

在 实施 商业 智能 的 同时 ， 同 样 需要 业务 部 门 和 技术 部 门 的 广泛 合作 ， 开 发 出 适合 业务 发 
展 的 商业 智能 应 用 系统 。 

金融 行业 实施 商业 智能 主要 有 以 下 几 个 方面 的 内 容 : 

1) 商业 智能 的 实施 需要 由 业务 进行 推动 ， 首 先 应 该 明确 业务 发 展 的 方 各 ， 制 定 出 各 个 
阶段 商业 智能 实施 的 重点 ， 为 商业 智能 大 规模 的 应 用 提供 经 验 ， 同 时 短期 内 可 以 促进 业务 的 
发 展 ， 增 强 下 一 阶段 工作 的 信心 。 对 于 商业 银行 来 说 ， 首 先 应 该 完成 对 客户 信息 的 整合 ， 形 
成 基础 数据 ， 然 后 建立 数据 仓库 、 数 据 集 市 、OLAP 分 析 等 基础 架构 。 通 过 对 各 种 业务 应 用 
的 实施 过 程 ， 形 成 完备 的 技术 架构 ， 逐 步 建 立 起 具有 实施 能 力 的 团队 。 

2) 在 商业 智能 的 实施 过 程 中 ， 需 要 重视 对 数据 的 清洗 和 整合 ， 为 数据 仓库 的 建设 打下 
基础 。 在 此 基础 上 ， 需 要 注重 对 数据 资源 的 整体 规划 ， 人 制定 出 实施 步 又， 保证 实施 的 长 效 
性 。 同 时 推动 业务 流程 的 改进 ， 完 善 业 务 活 动 环节 ， 发 挥 商 业 智 能 的 价值 。 

金融 行业 可 以 将 商业 智能 系统 划分 成 以 下 儿 个 层次 : 数据 源 层 、 数 据 模 型 层 、 可 视 化 组 
件 层 和 交付 展示 层 ， 如 图 12-34 所 示 。 





























数据 源 层 


可 视 化 组 件 层 过 全 展示 尖 





图 12-34 金融 行业 的 商业 智能 系统 划分 


e 数据 源 层 
主要 支持 各 种 数据 源 ， 例 如 Hadoop 、NoSQL 、 文 本 、Excel 、CSV 等 。 
e。 数据 模型 层 
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主要 针对 各 类 数据 源 、 大 数据 集群 和 集成 的 企业 应 用 模型 ， 同 时 文 持 OLAP 立方 体 


。 可 钢化 组 件 层 
可 视 化 组 件 层 主要 包含 管理 驾驶 舱 、 报 表 、 多 维 分 析 、 数 据 集 成 和 数据 挖掘 ， 如 图 12-35 
所 未 。 








数据 挖 据 数据 集成 


图 12-35 可视化 组 件 层 
可 视 化 组 件 层 各 组 成 部 分 的 功能 及 用 户 见 表 12-5 。 
表 12-5 可 视 化 组 件 层 各 组 成 部 分 的 功能 及 用 户 





名 称 具体 功能 主要 用 户 
报表 即席 分 析 、 操 作 报 表 业务 用 户 

多 维 分 析 高 级 分 析 、 多 维度 探查 数据 业务 用 户 、 高 级 用 户 

数据 集成 高 性 能 数据 集成 、 大 数据 清洗 高 级 用 户 、 开 发 人 员 、DBA 
数据 挖掘 高 级 预测 分 析 业务 用 户 、 超 级 用 户 





® 交付 展示 层 

交付 展示 层 提供 面 回 用 户 和 集成 商 的 全 面 接口 ， 主 要 包括 Web 、 移 动 终端 、 打 印 、 电 
子 邮 件 等 数据 输出 支持 。 一 般 来 说 ,交付 展示 层 可 以 提供 丰富 的 二 次 开发 接口 及 应 用 服务 
接口 。 


12.4.3 ”人 金融 行业 的 业务 流程 和 运营 模式 优化 


在 商业 银行 中 ， 业 务 部 门 会 提出 各 种 需求 , 同时 开 部 门 会 根据 计划 对 各 种 需求 进行 立 
项 。 当 系统 设计 、 开 发 完毕 , 一 直到 上 线 后 ，IT 部 门 会 根据 业务 部 门 提出 的 问题 进行 修改 
和 优化 。 目 前 来 说 ， 多 数 商 业 银 行 很 少 关注 对 业务 流程 和 运 介 模式 的 优化 ， 然 而 业务 流程 和 
运营 醒 式 的 优化 可 以 促进 商业 银行 业务 的 发 展 。 那 么 如 何 进 行 优 化 呢 ? 

我 们 整理 一 下 整体 的 思路 : 

通过 对 金融 行业 的 环境 分 析 ， 对 战略 的 理解 和 核心 业务 流程 的 描述 ， 同 时 参考 行业 内 先 
进 的 实践 经 验 ， 提 出 对 商业 银行 业务 流程 的 优化 和 改进 意见 ， 如 图 12-36 所 示 。 




















了 77 


金融 行业 的 环境 分 析 参考 行业 先进 的 经 验 
战略 的 理解 优化 和 改进 


核心 业务 流程 的 描述 














图 12-36 金融 行业 的 业务 流程 和 运营 模式 优化 


e 金融 行业 的 环境 分 析 

主要 了 解 金 融 行 业 的 整体 发 展 趋 势 、 技 术 发 展 水 平和 竞争 态势 ， 以 及 该 金融 机 构 在 市 场 
竞争 中 将 要 面临 的 机 遇 和 风险 等 内 容 。 

e 对 金融 行业 战略 的 理解 

主要 理解 金融 行业 的 发 展 方 回 、 战 略 目 标 。 

e 核心 业务 流程 的 描述 

识别 关键 的 业务 流程 ， 找 出 业务 流程 和 运营 模式 需要 改进 的 地 方 。 

e 优化 和 改进 

参考 行业 内 先进 的 经 验 和 业务 现状 ， 优 化 和 改进 该 金融 机 构 的 业务 流程 和 运营 模式 。 

1. 对 金融 行业 的 环境 分 析 

金融 行业 的 环境 分 析 主 要 包括 行业 的 发 展 趋势 、 技 术 变 革 等 儿 个 方面 。 

1 ) 对 金融 机 构 来 说 ， 如 何 能 够 为 客户 提供 丰 曙 的 产品 和 服务 是 首要 问题 。 例 如 ， 随 痢 
社会 老龄 化 的 到 来 ， 一 些 金融 机 构 可 以 为 老人 提供 风险 较 低 的 理财 产品 ， 以 满足 客户 对 生活 
的 基本 需求 。 同 时 也 可 以 考虑 其 他 的 消费 群体 ， 为 年 轻 人 提供 更 方便 和 快捷 的 移动 金融 服 
务 等 。 

2) 随 者 次 本 市 场 的 成 熟 ， 金 融 脱 媒 现 象 越 改 明显， 特别 是 利率 市 场 化 的 调整 ， 大 幅度 
降低 了 商业 银行 的 利润 空间 。 

3) 随 春 技术 的 进步 ， 客 户 获 取信 息 的 渠道 越 来 越 多 ， 特 别 是 互联 网 和 社交 网 络 的 发 展 ， 
增加 了 人 金融 机 构 和 客户 之 间 的 信息 不 对 称 。 这 要 求 金融 机 构 通 过 各 种 渠道 采集 完整 的 客户 信 
息 ， 减少 这 种 不 对 称 性 ， 提 高 金融 机 构 的 决策 分 析 能 力 和 风险 管控 能 

2. 对 金融 行业 先进 经 验 的 分 析 

通过 对 国内 外 金融 机 构 先 进 经 验 的 分 析 ， 以 市 场 作为 驱动 力 ， 强 化 对 产品 的 创新 能 力 和 
对 外 服务 能 力 。 对 核心 的 范 争 优势 进行 分 析 ， 从 而 提高 目 吴 的 能 力 。 例 如 ， 很 多 国外 先进 的 
金融 机 构 ， 它 们 的 业务 模式 可 以 包括 决策 分 析 、 行 业 解 决 方案 等 。 它 们 基于 数据 匹配 和 整合 
技术 ， 为 客户 提供 各 种 专业 化 和 个 性 化 产品 和 服务 。 

3. 核心 业务 流程 的 描述 

对 于 金融 机 构 来 说 ， 它 的 核心 业务 流程 是 数据 采集 、 产 品 加 工 、 产 品 人 研发 和 对 外 服务 。 
其 中 数据 采集 和 产品 加 工 是 数据 流动 的 过 程 。 产 品 人 研发 是 从 产品 的 设计 、 研 发 ， 一 二 到 产品 
上 线 的 过 程 。 对 外 服务 是 客户 申请 服务 到 服务 终止 的 过 程 。 

对 于 商业 银行 来 说 ， 如 何 提高 对 客户 的 服务 能 力 和 工作 效率 ， 降 低 运 营 成 本 ,提升 产品 
人 研发 和 对 外 服务 的 核心 苑 争 力 是 业务 优先 关注 的 地 方 。 
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4. 优化 和 改进 
关于 金融 行业 业务 流程 和 运 萌 模式 的 优化 和 改进 措施 主要 包括 以 下 几 种 手段 : 对 数据 采 
集 、 产 品 加 工 的 优化 ， 对 产品 服务 的 优化 ， 对 产品 研发 流程 的 优化 等 等 ， 如 图 12-37 所 示 。 








对 数据 采集 、 产 品 对 产品 服务 的 优化 


的 全 . 





关于 产品 研发 流程 的 优化 





图 12-37 金融 行业 业务 流程 和 运营 模式 的 优化 和 改进 措施 


(1) 对 数据 采集 、 产 品 加 工 的 优化 

日 前 很 多 商业 银行 的 数据 采集 、 产 品 加 工 的 扩展 性 都 不 高 。 对 数据 自动 化 处 理 能 力 、 数 
据 质量 和 采集 策略 的 管理 能 力 普 遍 较 低 。 

我 们 可 以 在 数据 源 规划 、 调 度 监控 管理 和 校 验 等 几 个 方面 进行 改进 和 优化 。 

1 ) 参考 数据 源 业 务 发 生 的 频率 ， 提 高 数据 采集 的 灵活 性 。 将 数据 采集 、 数 据 加 工 和 对 
外 服务 进行 综合 考虑 ， 以 实现 业务 之 间 的 平衡 。 

2) 通过 调度 监控 的 管理 ， 实 现 各 个 作业 任务 之 间 的 协调 ， 使 不 同 的 业务 环节 围绕 在 统 
一 体系 下 。 解 决 办 法 是 建立 数据 采集 和 调度 监控 机 制 ， 加 强 产 品 加 工 的 能 力 。 同 时 可 以 收集 
宏观 的 产品 需求 信息 、 产 品 的 反馈 信息 等 ， 然 后 对 客户 和 群 进行 细 分 。 

3) 整合 业务 的 流程 ， 提 高 自动 化 程度 ,减少 手工 干预 的 工作 。 加 强 数 据 质 量 、 查 询 匹 
配 、 数 据 整 合 等 关键 环节 的 能 力 。 我 们 也 可 以 把 数据 质量 管理 工作 前 移 ， 保 证 数据 入 库 之 前 
的 质量 ， 可 以 采用 抽样 统计 与 逐条 数据 校 验 的 方式 ， 规 避 系 统 性 的 数据 错误 ， 作 为 数据 质量 
提升 的 策略 之 一 。 

举例 来 说 ， 我 们 可 以 根据 历史 数据 的 报 送 情况 ， 动 态 调整 抽样 和 统计 的 规则 ， 借 鉴 国外 
身份 信息 的 整合 经 验 ， 以 自然 人 为 单位 ， 作 为 整合 的 对 象 ， 利 用 个 人 姓名 、 证 件 号 码 、 地 址 
言 息 和 电话 号 码 进 行 整 合 。 很 多 金融 机 构 因 为 质量 管理 手段 单一 ， 并 且 以 逐条 记录 校 验 为 
主 ， 所 以 效率 很 低 。 可 以 通过 建立 数据 质量 跟踪 和 反馈 机 制 ， 同 时 提供 相应 的 激励 措施 等 方 
法 提高 效率 。 

(2) 对 产品 服务 的 优化 

1) 首先 对 产品 服务 的 现状 进行 分 析 。 人 例如， 判断 一 些 金融 机 构 是 否 建立 了 以 市 场 化 为 
主 的 产品 服务 流程 体系 。 在 产品 服务 的 各 个 环节 之 间 是 否 存在 信息 共享 。 金 融 机 构 需 要 清晰 
的 服务 定位 。 通 过 不 断 优 化 产品 体系 ， 改 善 客户 的 产品 体验 度 ， 完 善 服 务 规范 体系 等 手段 达 
到 优化 的 目的 。 
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2) 通过 多 维度 的 分 析 金 融 机 构 的 特点 ， 对 客户 群 进行 细 分 ， 提 供 有 针对 性 的 差异 化 服 





以 满足 金融 机 构 在 不 同业 务 场 景 下 的 信息 需求 。 对 于 金融 机 构 来 说 ， 它 们 应 该 重点 分 析 


对 外 可 以 提供 哪些 服务 ， 如 何 保证 对 外 产品 服务 的 标准 化 。 同 时 可 以 为 客户 提供 灵活 的 查询 


引擎 


， 文 持 产 品 的 组 闭 等 方面 。 
(3) 对 产品 人 研发 流程 的 优化 


产品 全 发 流程 主要 包括 : 理解 产品 设计 的 功能 ， 产 品 人 研发 进度 情况 ， 市 场 的 动 癌 和 设计 








变更 决 傈 等。 关于 产品 研发 流程 的 优化 是 最 襄 有 挑战 性 的 工作 之 一 。 


小 结 
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e 人 金融 台 是 在 我 们 的 经 济 生活 中 ， 通 过 银行 、 证 券 机 构 等 中 介 ， 从 市 场 主 体 中 筋 集 资 
金 ， 然 后 在 借贷 给 其 他 市 场 主 体 的 活动 ， 可 以 把 金融 看 做 融资 、 投 资 和 资金 募集 等 三 
种 经 济 活动 。 

对 于 商业 银行 来 说 ， 它 有 大 量 的 客户 群 ， 可 以 吸收 社会 公众 存款 ， 资 金 实 力 非常 雄 
厚 ， 抗 风险 的 能 力 比 较 强 。 同 时 银行 有 大 量 的 客户 信用 数据 ， 包 括 各 种 客户 信用 卡 消 
费 信 息 、 贷 款 信 息 、 还 款 信 息 和 信用 信息 等 。 

随 着 互联 网 技术 的 进步 ， 商 业 银 行 通过 互联 网 融资 会 更 有 利 ， 因 为 商业 银行 本 身 具 有 
良好 的 信用 基础 和 声誉 ， 各 种 贷款 、 股 票 和 债券 都 可 以 通过 互联 网 进行 交易 。 同 时 也 
可 以 利用 互联 网 技术 解决 信息 不 对 称 的 问题 。 对 于 银行 来 说 ,借贷 业务 仍然 是 银行 的 
核心 业务 ， 它 的 净利 县 收入 占 到 70% 左右 。 

商业 银行 应 该 具备 的 能 力主 要 包括 对 客户 的 洞察 力 、 精 准 营销 和 路 渠道 客户 管理 。 
金融 行业 的 数据 架构 一 般 包 括 以 下 几 个 部 分 : 数据 采集 层 、 产 品 加 工 层 和 对 外 服 
务 层 。 

从 数据 源 开 始 ， 经 过 加 载 、 集 中 、 整 合 ， 以 及 对 外 服务 这 几 个 过 程 ， 可 以 将 整个 数据 
架构 横 问 划分 成 : 源 数据 区 、 基 础 区 、 产 品 加 工区 和 产品 服务 区 。 各 个 区 域 都 相对 
独立 。 

数据 架构 是 企业 架构 的 重要 组 成 部 分 ， 帮 助 金融 行业 有 效 地 分 配 、 部 署 和 使 用 数据 ， 
实现 数据 的 合理 组 织 和 有 效 共 享 ， 从 而 保证 数据 在 各 个 系统 之 间 的 一 致 性 、 完 整 性 和 
有 效 性 。 

在 当前 市 场 竞 争 激烈 和 商业 银行 业务 转型 的 大 背景 下 ， 商 业 银 行 正 面临 着 各 种 机 遇 
和 挑战 。 利 用 商业 智能 技术 ， 可 以 大 大 提高 商业 银行 的 服务 水 平和 内 部 管理 水 平 。 
特别 是 在 数据 大 集中 的 背景 下 ， 商 业 智 能 已 经 成 为 商业 银行 信息 化 建设 的 必然 选择 
2 

商业 智能 (BI) 是 对 各 种 信息 收集 、 管 理 和 分 析 的 过 程 ， 目 的 是 使 企业 的 决策 者 能 够 
获得 知识 和 洞察 万 。 商 业 智 能 一 般 由 数据 仓库 、 数 据 集 市 、 数 据 挖掘 和 在 线 分 析 等 部 
分 组 成 。 商 业 智能 提高 了 企业 和 银行 的 管理 水 平 ， 强 化 了 对 风险 管理 和 产品 的 创新 
能 力 。 

金融 行业 商业 智能 的 实施 离 不 开 高 层 领导 的 重视 ， 同 时 需要 投入 大 量 的 资源 。 在 制定 
整体 规划 的 同时 ， 需 要 明确 各 个 阶段 的 实施 重点 。 可 以 按照 商业 智能 的 实施 方法 论 开 










































































展 工作 ， 包 括 建 立 数据 仓库 、 数 据 集 市 、 元 数据 管理 系统 、OLAP 等 。 

e 金融 行业 的 环境 分 析 主 要 包括 行业 的 发 展 趋势 、 技 术 变 羊 等 儿 个 方面 。 

e 通过 对 国内 外 金融 机 构 先 进 经 验 的 分 析 ， 以 市 场 作为 驱动 力 ， 强 化 对 产品 的 创新 能 力 
和 对 外 服务 能 力 。 对 核心 的 友和 争 优势 进行 分 机 ， 从 而 提高 月 吴 的 能 

。 对 于 金融 机 构 来 说 ， 它 的 核心 业务 流程 是 数据 采集 、 产 品 加 工 、 产 品 人 研发 和 对 外 服 
务 。 其 中 数据 采集 和 产品 加 工 是 数据 流动 的 过 程 。 产 品 研发 是 从 产品 的 设计 、 研 发 ， 
一 直到 产品 上 线 的 过 程 。 对 外 服务 是 客户 申请 服务 到 服务 终止 的 过 程 。 
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第 13 革 电力 行业 数据 架构 和 商业 智能 条 例 


本 章 目标 

通过 前 一 草 的 学 习 ， 读 者 已 经 掌握 了 金融 行业 背景 概述 、 金 融 行业 的 数据 染 构 、 传 统 金 
融 行业 菜系 统 的 数据 架构 案例 、 互 联网 金融 行业 的 数据 染 构 案例 、 金 融 行业 的 两 业 智能 概 
述 、 金 融 行 业 商 业 镶 能 的 育 景 和 作用 、 人 金融 行业 如 何 实 施 商 业 鲁 能、 金融 行业 的 业务 流程 和 
运 悍 模式 优化 等 内 容 。 

学 习 本 章 后 ， 谈 者 将 掌握: 

e 电力 行业 面临 的 挑战 

。 建设 电力 行业 企业 级 数据 仓库 的 因 系 和 策略 

e 电力 行业 商业 入 能 的 数据 架构 

。 电力 行业 商业 智能 系统 开发 流程 

® 数据 仓库 运 维 内 容 

。 电力 行业 数据 仓库 的 建设 方法 

。 商业 智能 运 维 组 织 架 构 

e 针对 电力 行业 的 数据 管理 

e 天 于 电力 行业 的 数据 质量 管理 

e 天 于 电力 行业 的 数据 标准 管理 

e 天 于 电力 行业 的 数据 安全 管理 


























13.1 电力 行业 商业 智能 


1. 电力 行业 面临 的 挑战 

电力 行业 主要 面临 着 业务 挑战 和 技术 挑战 ， 如 图 13-1 所 示 。 

(1) 业务 挑战 

1) 电力 行业 的 分 析 系 统一 般 仅 提供 简单 的 报表 功能 ， 功 能 单一 ， 高 层 人 员 无 法 从 全 局 
的 角度 对 各 条 业务 线 进行 多 层次 的 综合 分 析 。 

2) 对 于 各 个 分 析 系 统 来 说 ， 它 们 又 集中 于 各 目的 领域 ， 不 具备 路 业务 的 分 析 能 力 ， 存 
在 着 数据 不 一 致 的 现象 ， 不 能 有 将 地 发 挥 电 力行 业 数 据 资 产 的 价值 。 

(2) 技术 挑战 

1 ) 分 析 型 系统 与 业务 生产 系统 耦合 性 较 强 ,缺乏 对 全 局 业务 分 析 的 支持 ， 对 于 相同 业 
务 数据 ， 可 能 会 存在 不 同 的 版 本 。 

2) 各 个 业务 系统 管理 着 各 自 的 数据 ， 数 据 的 业务 含义 在 各 个 部 门 之 间 可 能 存在 不 一 致 
的 解释 ， 数 据 质量 也 相对 较 低 。 
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技术 挑战 





图 13-1 电力 行业 主要 面临 着 业务 挑战 和 技术 挑战 


2. 建设 电力 行业 企业 级 数据 仓库 的 因素 和 策略 
建设 电力 行业 企业 级 数据 仓库 的 因素 主要 包括 业务 因素 和 技术 因素 ， 如 图 13-2 所 示 。 














技术 因素 


图 13-2 建设 电力 行业 企业 级 数据 仓库 的 因素 


e 业务 因素 

在 业务 上 ,缺乏 统一 的 报表 与 指标 规范 体系 ,缺少 明确 的 数据 责任 体系 。 

。 技术 因素 

缺少 规范 的 数据 架构 ， 导 致 数据 分 布 的 不 合理 和 模型 的 不 一 致 。 同 时 数据 管理 不 规范 ， 
缺乏 企业 级 的 数据 整合 和 管控 机 制 。 

3. 电力 行业 企业 级 数据 仓库 的 建设 策略 

1) 电力 行业 对 数据 分 析 的 需求 有 一 定 的 差异 性 ， 对 于 分 析 应 用 ， 人 允许 各 个 省 市 存在 个 
性 化 的 内 容 。 

2) 对 于 电力 行业 企业 级 数据 仓库 的 核心 模型 ， 应 该 有 一 个 统一 的 数据 标准 ， 它 可 以 玫 
助 各 个 省 市 建立 统一 的 数据 管理 体系 ， 通 过 试点 地 区 的 成 功 经 验 推 广 ， 减 少 其 他 省 市 数据 仓 
库 实 施 的 风险 。 

4. 电力 行业 商业 稼 能 的 数据 染 构 

电力 行业 商业 智能 的 数据 架构 包括 源 数 据 层 、 数 据 抽 取 层 、 数 据 存 储 层 、 数 据 访问 层 和 
用 户 访问 层 。 

。 源 数 据 层 

主要 包括 各 个 业务 系统 的 数据 。 

。 数据 抽取 层 

主要 包括 抽取 、 清 洗 、 转 换 和 加 载 。 

。 数据 存储 层 

主要 包括 ODS、 数 据 仓库 和 数据 集 市 。 

® 数据 访问 层 
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主要 工作 流程 包括 用 户 应 用 通过 Web 浏览 亏 提 交 数 据 请 求 ，Web 浏览 锅 通过 Internet 发 
送 HTTP 请 求 给 Web 服务 磊 。 数 据 请 求 发 送 给 应 用 服务 种 。 获 得 数据 后 以 HTTP response 的 
形式 发 送 给 用 户 。 

e 用 户 访 问 层 

主要 包括 : 报表 、 碍 询 、 在 线 分 析 和 知识 发 现 等 。 

电力 行业 商业 智能 的 数据 淋 构 的 实现 如 图 13-3 所 示 。 


数据 抽取 层 数据 存储 层 数据 访问 层 用 户 访问 层 


知识 发 现 





图 13-3 电力 行业 商业 智能 的 数据 架构 的 实现 


5$. 电力 行业 商业 智能 系统 开发 流程 
电力 行业 商业 智能 系统 的 开发 流程 主要 包括 计划 ， 分 析 ， 设 计 及 开发 ， 测试， 部 署 ， 如 
图 13-4 所 示 。 


电力 行业 商业 智能 系统 全 


流 





图 13-4 电力 行业 商业 智能 系统 的 开发 流程 


。 计 划 
计划 包括 复查 期 望 的 目标 ， 评 估 系 统 现状 能 力 ， 定 义 系统 建设 方案 等 内 容 。 
。 分 析 
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分 析 包括 对 高 层 需求 的 确认 ， 定 义 数据 分 析 的 需求 ， 建 立 概念 模型 ， 评 估 系 统 建设 风 
险 ， 定 义 开发 和 执行 环境 的 需求 ， 制 定 UAT 计划 和 性 能 测试 计划 等 内 容 。 

。 设计 及 开发 

设计 及 开发 包括 制定 报表 开发 规范 ， 建 立 逻 缉 模 型 和 物理 模型 ， 设 计 ETL 的 开发 流程 
部 署 ETL 开发 程序 的 测试 环境 等 内 容 。 

。 测 斌 

完成 对 商业 智能 的 产品 测试 、 性 能 测试 和 UAT 测试 等 

。 部署 

评估 部 署 条 件 ， 完 成 数据 转换 ， 最 后 发 布 应 用 程序 。 

6. 数据 仓库 运 维 内 容 

电力 行业 数据 仓库 系统 的 运 维 内 容 主 要 包括 : 备份 与 恢复 ， 归 档 与 恢复 ， 系 统 监控 ， 容 
量规 划 ， 性 能 管理 ， 如 图 13-5 所 示 。 








电力 行业 数据 仓库 系统 
的 运 维 内 容 


容量 规划 


性 能 管理 





和 一 


图 13-5 电力 行业 数据 仓库 系统 的 运 维 内 容 


e 备份 与 恢复 

数据 仓库 的 定期 备份 与 恢复 是 数据 仓库 运 维 的 重要 环 市 之 一 ， 它 需要 满足 用 户 对 于 业务 
恢复 执行 频率 与 速度 的 要 求 。 这 些 流程 必须 满足 用 户 的 可 用 性 需求 和 数据 的 线性 增长 要 求 。 

。 归档 与 恢复 

对 于 数据 仓库 运 维 人 员 来 说 ,数据 的 归档 活动 经 第 被 忽略 ， 但 是 数据 量 不 断 增加 ， 使 得 
数据 仓库 需要 增加 额外 的 存储 设备 ， 增 加 了 系统 的 复杂 性 。 正 是 上 述 原因 ， 使 得 数据 仓库 不 
能 永久 地 保存 数据 ， 需 要 将 历史 数据 归档 到 离线 存储 设备 上 。 

。 系统 监控 

对 于 数据 仓库 来 说 ， 系 统 的 监控 工作 更 加 复杂 ， 很 多 数据 仓库 系统 的 建设 都 忽略 了 对 数 
据 库 使 用 情况 的 监控 ， 这 些 览 控 信 息 可 以 帮助 系统 管理 员 对 数据 库 进行 调整 ， 以 满足 对 现在 
和 未 来 数据 容量 的 需求 。 

。 容量 规划 

对 于 数据 仓库 来 说 ，CPU 、 内 存 、 人 硬盘 和 网 络 等 便 件 资源 的 容量 计算 是 非常 关键 的 工 
作 。 在 数据 仓库 系统 中 ， 人 硬件 开 销 最 大 。 特 别 是 服务 融 、 存 储 等 基础 设施 的 成 本 很 大 ， 人 硬件 
成 本 直接 影响 了 企业 开 系 统 的 总 体 成 本 ， 所 以 做 好 系统 容量 的 计算 是 降低 开 系统 的 成 本 ， 


提高 运 彰 绩效 的 重要 途径 之 一 。 
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月 E 
性 能 是 数据 仓库 架构 中 每 个 组 件 都 需要 考虑 的 问题 。 在 架构 过 程 中 需要 考虑 系统 的 性 能 
问题 ， 例 如 系统 负载 、 索 引 构建 、 大 文件 传输 、 用 户 查 询 啊 应 时 间 、 备 份 与 恢复 时 长 等 。 


13.2 ”电力 行业 相关 商业 智能 案例 








1. 电力 行业 数据 仓库 的 建设 方法 


数据 仓库 开发 应 实施 以 全 局 的 观点 为 基础 ， 业 务 需 求 为 导 问 的 深 动 式 开发 方法 ， 如 图 
13-6 所 示 。 





企业 数据 模型 











图 13-6 电力 行业 数据 仓库 的 建设 方法 


天 于 省 市 级 的 数据 仓库 读 进 方法 是 以 数据 仓库 分 析 能 力 和 数据 整合 能 力 的 提高 为 主线 
索 ， 提 升 数 据 管 控 能 力 ， 改 进 数 据 质量 。 





1) 首先 采用 Quick Win ( 速 赢 ) 方式 ， 建 立领 导 查 询 系统 ， 如 网 13-7 所 示 。 


领导 查询 





图 13-7 Quick Win ( 速 赢 ) 方式 


2) 然后 ， 建 立 数据 仓库 ， 并 且 对 数据 仓库 不 断 地 进行 完善 和 改进 。 挑 选 重要 的 主题 进 
行 数据 仓库 建设 ,提供 联机 分 析 及 综合 报表 ， 如 图 13-8 所 示 。 





3 ) 数据 仓库 优化 。 在 优化 阶段 ， 数 据 仓库 已 经 基本 建成 。 在 此 阶段 ， 数 据 仓库 可 以 提 
供 更 全 面 的 数据 分 析 以 及 数据 展现 功能 ， 包括 对 数据 进行 更 深层 次 的 挖掘 ， 如 图 13 -9 
所 未。 
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ETL 


领导 查询 









合 报 表 
ETL 2 


图 图 圆 山 转 
图 13-8 建立 数据 仓库 并 不 断 完善 和 改进 
数据 挖掘 


一 一 


领导 查询 


pe 


a 
= 4 


据 集 让 





0 





图 13-9 数据 仓库 优化 


2. Quick Win ( 速 说 ) 阶段 的 工作 任务 和 效果 
(1 ) 阶段 任务 
功能 : 实现 综合 分 析 和 领导 查询 。 
技术 : 建立 数据 仓库 技术 架构 ， 包 括 开 发 环境 、 执 行 环境 和 运 维 环境 。 
管理 : 初步 统一 编码 ， 使 数据 集 市 中 的 标准 一 致 ， 对 于 地 市 级 上 报 的 指标 统一 口径 。 
(2) 效 采 
该 阶段 基本 实现 综合 分 析 和 统计 功能 ， 包 括 指标 的 查询 和 统计 ， 表 现 方式 主要 是 普通 报 
表 、 图 形 和 仪表 盘 等 。 但 是 对 明细 数据 的 分 析 能 力 有 限 ， 缺 乏 丰 富 的 多 维 分 析 能 力 ， 从 整个 
架构 上 看 ， 只 有 数据 集 市 ， 没 有 建立 企业 级 的 数据 仓库 。 整 体 的 架构 在 这 个 阶段 基本 形成 。 
数据 集 市 中 的 数据 可 以 自动 更 新 。 
3.， 数据 仓库 建立 及 完善 阶段 的 工作 任务 和 效果 
(1) 阶段 任务 
功能 : 完善 综合 分 析 和 领导 查询 。 
技术 : 在 数据 仓库 中 建立 客户 、 产 品 、 财 务 主题 域 的 物理 模型 ， 将 数据 源 转 化 后 进入 到 
数据 仓库 中 ， 实 现 数据 仓库 数据 到 数据 集 市 的 转换 ， 对 于 数据 集 市 中 的 指标 ， 逐 步 转 问 由 数 
据 仓 库 计算 得 来 。 
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管理 :建立 数据 质量 管理 团队 、 方 法 和 流程 ， 对 数据 质量 进行 分 析 ， 实 施 数据 安全 的 分 
级 策略 ， 使 用 户 对 数据 具有 不 同 的 访问 权限 。 同 时 建立 数据 标准 管理 团队 ， 对 数据 标准 进行 
管理 维护 ， 初 步 具 有 应 对 数据 标准 需求 的 能 力 。 在 此 基础 上 ， 建 立 数据 仓库 运 维 架 构 ， 包 括 
组 织 、 流 程 、 方 法 等 内 容 。 

(2) 效 末 

综合 分 析 和 统计 中 的 指标 可 以 从 数据 仓库 中 统计 得 来 ， 指 标的 准确 度 和 自动 化 程度 得 到 
提高 。 企 业 级 数据 仓库 初步 形成 ， 并 有 旦 具备 一 定 的 数据 整合 能 力 ， 为 分 析 提 供 明 细 和 汇总 的 
数据 。 例 如 ， 通 过 对 电量 、 电 费 、 电 价 的 分 析 ， 提 高 电量 的 需求 预测 和 价格 制定 能 力 。 同 时 
可 以 全 面 了 解 客户 的 电力 消费 和 缴费 情况 ， 帮 助 制定 相关 的 政策 和 服务 措施 。 它 可 以 基于 
OLAP 分 析 技 术 做 更 深入 的 数据 分 析 ， 数 据 质 量 逐 步 得 到 改善 ， 保 证 数据 仓库 系统 运行 时 的 
高 可 用 人 性。 

4. 数据 仓库 优化 阶段 的 工作 任务 和 达到 的 效果 

(1) 阶段 任务 

功能 : 完善 综合 分 析 及 领导 查询 ， 完 成 剩余 的 数据 分 析 功 能 。 

技术 : 在 数据 仓库 中 建立 其 他 主题 域 的 物理 模型 ， 建 立 数据 源 到 数据 仓库 的 映射 关系 ， 
将 数据 源 进行 转换 后 再 送 入 到 数据 仓库 中 。 在 此 基础 上 ， 建 立 其 他 的 数据 集 市 ， 并 且 实 现 数 
据 仓库 到 数据 集 市 的 转换 ， 使 集 市 中 的 指标 ， 全 部 转向 由 数据 仓库 计算 得 来 。 

管理 : 优化 数据 标准 维护 流程 、 数 据 质 量 管理 流程 ， 同 时 优化 数据 仓库 运 维 能力 ， 建 立 
数据 生命 周期 。 

(2 六 效 榨 

对 于 综合 分 析 和 更 多 的 指标 可 以 从 数据 仓库 中 统计 得 来 ， 指 标的 准确 度 和 上 自动 化 程度 得 
到 优化 和 提高 。 企 业 级 数据 仓库 已 经 形成 ， 上 有 具备 数据 整合 能 力 ， 为 数据 分 析 提 供 充 分 支持 。 
数据 质量 进一步 改善 ， 在 源头 对 数据 质量 进行 管理 ， 使 运 维 效率 得 到 提高 。 

其 中 ， 电 力行 业 商 业 智 能 组 织 架 构 如 图 13-10 所 示 ， 主 要 包括 项 目 领导 小 组 、 项 目 管 
理 办 公 室 、 专 家 组 、 质 量 监控 组 、 项 目 经 理 / 项 目 实施 管理 团队 、 架 构 设 计 组 和 开发 测试 组 。 





























项 目 领 导 小 组 
项 目 管理 办 公 室 


经 理 / 项 目 实施 管理 团队 


江上 腊 芍 古 洽 
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电力 行业 商业 智能 的 任务 流程 如 图 13-11 所 示 ， 主 要 包括 计划 阶段 、 分 析 阶 段 、 设 计 
阶段 、 开 发 阶段 、 测 试 阶段 和 部 署 阶段 。 


计划 阶段 








测试 阶段 设计 阶段 


开发 阶段 
图 13-11 电力 行业 商业 智能 的 任务 流程 


1) 计划 阶段 
计划 阶段 主要 包括 定义 期 户 日 标 、 评 佑 现状 能 力 、 定 义 方案 和 定义 交付 策略 ， 如 图 13-12 


所 示 。 
计划 阶段 ) 








图 13-12 计划 阶段 


。 定义 期 望 目 标 
包括 永 景 及 业务 目标 ,确认 目标 业务 流程 ,定义 方案 蓝图 等 。 


。 评 估 现 状 能 
评估 当前 业务 流程 和 当前 的 能 力 、 性 能 、 风 险 等 内 容 ， 分 析 当前 技术 架构 、 组 织 架构 、 
数据 管控 的 现状 。 
。 定义 方案 


e 定义 交付 策略 

定义 开发 策略 、 测 试 策 略 、 试 点 策略 、 部 署 策略 、 元 数据 管理 和 数据 管控 策略 。 

2) 分 析 阶 段 

分 析 阶 段 主 要 包括 定义 数据 分 析 需 求 、 建 立 概 念 数据 模型 、 定 义 用 户 访问 需求 、 评 佑 风 
险 、 定 义 开发 运行 环境 需求 、 制 定 UAT 计划 和 性 能 测试 计划 ， 如 图 13-13 所 示 。 
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攻 定义 数据 分 析 需 求 司 
区 建立 概念 数据 模型 | 


定义 用 户 访问 需求 





区 评 佑 风险 


定义 开发 运行 环境 需求 


医 制定 UAT 计划 和 性 能 测试 计划 3 


图 13-13 分 析 阶 段 








3 ) 设计 阶段 
设计 阶段 主要 包括 定义 ETL 技术 整合 方案 和 报表 详细 规范 ， 建 立 逻 辑 数 据 模 型 ， 对 设 
计 开 发 和 运行 环境 的 准备 ， 制 定 测试 计划 ， 如 图 13-14 所 示 。 





定义 ETL 技术 整合 方案 和 报 
表 详 细 规 学 


对 设计 开发 和 运行 环 
竞 的 准备 





图 13-14 设计 阶段 
4) 开发 阶段 
开发 阶段 主要 包括 制定 ETL 开发 流程 ， 前 台 组 件 开 发 ， 物 理 数 据 模 型 开发 ， 开 发 、 运 
行 环境 的 准备 ，ETL、 报 表 组 件 测试 计划 ， 如 图 13-15 所 示 。 
1. 制定 ETL 开发 流程 





4. 开发 、 运 行 环境 的 准备 


~ 5. ETL. 组 件 测 试 计划 
> 前 台 组 件 开发 报表 组 件 测 试 计划 


3. 物理 数据 模型 开发 





图 13-15 开发 阶段 
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其 中 ETL 开发 流程 包括 数据 上 映射、 逻辑 设计 、 调 度 设计 、 编 码 等 。 
5 ) 测试 阶段 
测试 阶段 主要 包括 组 件 测试 、 产 品 测试 、 性 能 测试 、UAT 测试 ， 如 图 13-16 所 示 。 


测试 阶段 ) 


A 
组 件 产品 
测试 测试 


图 13-16 测试 阶段 





e。 组 件 测试 

组 件 测试 包括 编写 组 件 测试 的 脚本 、 发 布 测 斌 环境、 执行 组 件 测 试 ， 最 后 根据 测试 结 
及 时 通报 错误 并 修复 。 

e 产品 测试 

产品 测试 包括 确认 产品 测试 的 周期 、 编 写 测 试 脚本 、 发 布 测 试 环境 、 执 行 产品 测试 ， 最 
后 根据 测试 结果 及 时 通报 错误 并 修复 。 

e。 性 能 测试 

性 能 测试 包括 确认 性 能 测试 周期 、 编 写 测试 脚本 、 发 布 性 能 测试 环境 、 执 行 性 能 测试 ， 
最 后 根据 测试 结果 及 时 通报 错误 并 修复 。 

e UAT 测试 

主要 包括 对 用 户 培训 手册 、 测 试 脚 本 、 测 试 场景 、 测 试 策略 和 测试 用 户 的 准备 。 

6) 部 署 阶段 

部 署 阶段 主要 包括 评估 部 署 条 件 、 完 成 数据 
转换 和 部 莹 测试 、 发 布 应 用 ， 如 图 13-17 所 示 。 

其 中 评估 部 署 条 件 主要 是 评估 应 用 程序 、 技 A ~ 
术 架 构 、 部 署 站 点 和 基础 架构 的 准备 情况 ， 同 时 和 部 署 测 试 
制定 对 偶发 事件 的 应 急 处 理 机 制 ， 详 细 列 出 每 一 ~ 
阶段 的 检查 点 。 完 成 数据 转换 主要 包括 清洗 数据 、 
创建 数据 备份 、 执 行 数据 转换 ， 最 后 验证 转换 后 
数据 的 正确 性 。 完 成 部 署 测试 主要 包括 执行 部 署 
测试 、 验 证 结果 、 结 果 反 馈 、 错 误 修复 ， 最 后 将 
部 署 结果 通知 开发 和 实施 团队 。 

5. 电力 行业 商业 智能 运 维 组 织 架 构 

电力 行业 商业 智能 运 维 组 织 架 构 层 次 一 般 为 运 维 中 心 、 服 务 支 持 、 技 术 支 持 等 团队 。 例 
如 ， 服 务 支持 包括 设施 支持 人 员 、 流 程 管 理 人 员 ; 技术 支持 团队 包括 商业 智能 (BI) 支持 
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评估 部 署 条 件 














人 员 、 网 络 支 持 人 员 、 存 储 文 持 人 员 、 操 作 系 统 文 持 人 员 ， 如 图 13-18 所 示 。 


服务 支持 团队 技术 支持 团队 


商业 智能 (BD 
支持 人 员 





6. 电力 行业 商业 智能 基础 环境 搭建 

(1) 网 络 容 量规 划 方 法 

关于 电力 行业 数据 仓库 的 网 络 容量 规划 ， 可 以 分 成 以 下 三 个 阶段 : 业务 需求 规划 、 制 定 
容量 规划 和 容量 规划 执行 。 

第 一 阶段 : 业务 需求 规划 。 

第 一 阶段 主要 包括 识别 关键 业务 ， 识 别 造 成 影响 的 技术 因素 ， 制 定数 据 收集 清单 ， 制 定 
基础 设施 配置 清单 ， 识 别 约束 条 件 和 限制 条 件 ， 安 装 和 配置 数据 收集 工具 ， 对 确认 的 数据 指 
标 进 行 收集 等 内 容 ， 如 图 13-19 所 示 。 


E 识别 关键 业务 i 


别 造成 影响 的 技术 因素 











识别 约束 条 件 和 限制 条 件 


安装 和 配置 数据 收集 工具 


本 对 确认 的 数据 指标 进行 收集 


图 13-19 业务 需求 规划 
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第 二 阶段 : 制定 容量 规划 。 





第 二 阶段 主要 包括 确定 容量 规划 方法 ， 使 用 不 同 的 容量 模型 ， 决 定 当 前 和 未 来 容量 管理 


的 优先 级 ， 提 出 容量 管理 的 改进 计划 ， 如 图 13-20 所 示 。 


”确定 容量 规划 方法 。 ”使 用 不 同 的 容量 模型 





决定 当前 和 未 来 容量 。 ”提出 容量 管理 
”管理 的 优先 级 的 改进 计划 





图 13-20 制定 容量 规划 
第 三 阶段 : 容量 规划 执行 。 
第 三 阶段 主要 包括 审核 容量 规划 方法 ， 建 立 沟 通 机 制 ， 建 立 容量 规划 的 行动 方案 ; 执行 
容量 规划 ， 跟 踊 容 量规 划 的 结果 ， 及 时 调整 规划 ， 如 图 13-21 所 示 。 


容量 
| a 


一 
— 恒 跟踪 容量 规划 的 结果 ， 


审核 容量 规划 方法 ， 
沟通 机 制 


支 容 二 
建立 建立 容量 规划 的 行动 方案 












=# 及 时 调整 规划 


图 13-21 容量 规划 执行 





(2) 数据 中 心服 务 硕 逻辑 折 扑 图 

关于 电力 公司 数据 中 心服 务 需 逻辑 折 扑 如 岁 13-22 所 示 。 

(3) 数据 仓库 相关 存储 估算 

数据 仓库 存储 容量 包括 4 个 部 分 : 数据 仓库 容量 、 数 据 集 市 容量 、ODS 容量 和 备份 空 
间 ， 如 图 13-23 所 示 。 

1 ) 数据 仓库 容量 : 包括 数据 、 索 引 和 归档 日 志 等 信息 。 

2) 数据 集 市 容量 : 包括 数据 、 索 引 和 归档 日 志 等 信息 。 

3) ODS 容量 : 包括 数据 、 索 引 和 归档 日 志 等 信息 。 

4) 备份 空间 : 主要 包括 数据 仓库 、 数 据 集 市 、0DS 在 磁盘 阵列 上 的 备份 空间 。 
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信息 网 
网 络 核心 层 





业务 系统 服务 妖 集 群 数据 仓库 + 数据 集 市 集群 ODS 服务 器 集群 


四 


ETL 服务 器 集群 分 析 服 务 如 集群 Web 服务 如 集群 


导 全 二 刁 世 局 


图 13-22 ”电力 公司 数据 中 心服 务 吾 逻辑 拓扑 图 


数据 集 市 容量 





图 13-23 ”数据 仓库 总 体 存储 


对 于 数据 仓库 的 容量 估算 ， 举 例 见 表 13-1 。 
表 13-1 数据 仓库 容量 估算 











编号 空间 用 途 固定 容量 运算 说 明 
| 

2 数据 库 系 统 软 件 4GB 固定 

3 数据 库 系统 数据 4GB 固定 

4 数据 库 回 滚 段 固定 

5 数据 库 临 时 表 空 间 固定 

| We 
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数据 仓库 目前 数据 总 量 


每 年 增长 数据 总 量 
10 年 的 数据 仓库 总 量 A3 +A4 x10 


空间 用 途 固定 容量 


1 xK (KK 为 业务 
数据 总 量 ) 


目前 索引 0. 3 x 开 


目前 数据 











运算 说 明 


数据 仓库 是 企业 级 范围 内 经 过 整合 后 的 存储 体 ， 容 量 
应 该 等 于 或 者 大 于 业务 数据 的 总 量 


数据 仓库 的 索引 一 般 为 数据 仓库 数据 量 的 30% 左右 











N 为 业务 数据 年 增长 率 


对 于 数据 集 市 的 容量 佑 算 ， 举 例 见 表 13-2 。 
表 13-2 数据 集 市 容量 估算 























编号 空间 用 途 固定 容量 运算 说 明 
1 数据 库 系 统 

到 下 

3 数据 库 系统 数据 4GB 固定 

4 数据 库 回 滚 段 16 GB 固定 

6 数据 库 备 份 临 时 空间 16 GB 固定 

7 数据 集 市 数据 

Bl 目前 数据 0.4xAl 数据 集 市 的 当前 数据 容量 约 等 于 数据 仓库 当前 数据 的 40% 
B2 0.5xBl 数据 集 市 的 索引 约 占 数据 量 的 50% 
B3 | 数据 集 市 当前 数据 总 量 Bl + B2 

B4 每 年 增长 数据 总 量 B3 x N% 

B5 10 年 的 集 市 总 量 B3 + B4 x10 





对 于 ODS 的 容量 估算 ， 举 例 见 表 13-3 。 


表 13-3 ODS 容量 估算 























编 号 定 容量 运算 说 明 
1 数据 库 系统 
2 数据 库 系 统 软件 固定 
4 数据 库 回 滚 段 固定 
5 数据 库 其 他 数据 固定 
6 数据 库 备 份 临时 空间 16 CB 固定 
cl 目前 数据 5% : 日 数据 变动 量 占 业务 数据 总 量 百分比 
C2 目前 索引 0.2 xCl ODS 的 索引 约 占 数据 量 的 20% 
C3 ODS 当前 数据 总 
C4 每 年 增长 数据 总 
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关于 人 磁盘 备份 空间 的 需求 ， 见 表 13-4， 其 中 全 备份 不 保存 在 磁盘 阵列 上 。 
表 13-4 磁盘 备份 空间 的 需求 








应 用 服务 需 容 量 份 增 量 备份 数据 量 一 级 备份 (人 磁盘 阵列 ) 
数据 仓库 A5 AS x5% AS x5% x7+A5Sx0 





BS x99%o BS x5% x7+BSxO0O 


(4) 电力 行业 商业 智能 系统 相关 服务 器 描述 见 表 13-5。 
表 13-5 电力 行业 商业 智能 系统 相关 服务 器 


数据 仓库 服务 器 目的 是 提供 数据 仓库 数据 的 存储 、 计 算 、 要 求 数据 的 存储 容量 大 ， 复杂 的 数据 查询 可 能 


洋 
2 | 芋 
也 | 外 
起 
| 
几 | 尖 
廿 | 卫 | 也 
































查询 、 汇 总 等 功能 会 影响 CPU 、 内 存 、LO 的 整体 性 能 
- - 一 数据 访问 较 多 ， 需 要 的 存储 容量 较 天 复杂 的 
名目 . 担 仁 光 《 ， 
数据 集 市 服务 器 。 | 日 扑 是 提供 数 据 案 市 数据 的 存储 、 计 算 、| 数据 查询 可 能 会 影响 CPU、 内 存 、1/O 的 整体 
查询 、 汇 总 等 功能 性 能 
- 数据 访问 较 多 ， 需 要 的 存储 容量 较 涉 、 复杂 的 
0DS 服务 器 。 “| ,日 的 是 提供 ODS 数据 的 和 存储、 计算 、 查 | 数据 查询 可 能 会 影响 CPU、 内 存 、1/0 的 整体 
询 、 汇 总 等 功能 
0 安装 ETL 软件 ， 提 供 数据 抽取 、 清 洗 、| ”因为 聚合 、 计 算 、 匹 配 等 操作 ， 所 以 需要 高 性 
转换 功能 能 的 CPU 和 内 在 
安装 商业 智能 软件 ， 同 时 提供 各 种 分 析 、| ”因为 有 大 量 并 发 用 户 的 请 求 和 各 种 涩 辑 处 理 ， 
四 报表 、 查 询 等 功能 所 以 需要 高 性 能 的 CPU 和 内 存 











因为 有 大 量 并 发 用 户 的 请 求 和 多 个 在 线 的 Web 
入 是 e 着 的 请 3 2 
Wolo 上 服务 请 求 ， 所 以 需要 高 性 能 的 CPU 和 内 存 


7. 电力 行业 数据 仓库 建设 难点 

电力 行业 数据 仓库 建设 的 难点 主要 包括 缺乏 统一 的 数据 规划 、 缺 乏 统一 的 数据 管理 
标准 体系 、 缺 乏 统一 的 编码 管理 、 缺 乏 对 数据 仓库 建设 的 验证 过 程 等 方面 ， 如 几 13-24 
Di 


缺乏 统一 的 缺乏 统一 的 数据 、 
数据 规划 管理 标准 体系 





缺乏 统一 的 编码 缺乏 对 数据 仓库 
管理 建设 的 验证 过 程 


图 13-24 电力 行业 数据 仓库 建设 难点 
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e 缺乏 统一 的 数据 规划 

电力 行业 下 级 单位 扎 乏 统一 的 标准 体系 。 因 为 各 目的 建设 ， 所 以 很 容易 形成 信息 孤岛 。 

。 缺乏 统一 的 数据 管理 标准 体系 

电力 行业 总 部 层面 缺乏 统一 的 数据 管理 标准 体系 ， 没 有 对 应 的 管理 机 构 和 方法 去 协调 新 
增 的 数据 需求 。 

e 缺乏 统一 的 编码 管理 

电力 行业 缺乏 统一 的 编码 管理 ， 导 致 数据 存在 不 统一 、 不 完整 的 现 稼 。 同 时 数据 集成 的 
成 本 很 高 ， 效 据 质 量 偶 低 。 

。 缺乏 对 数据 仓库 建设 的 验证 过 程 

电力 行业 普 过 缺乏 对 数据 仓库 建设 的 验证 过 程 ， 包 括 对 试点 单位 的 推广 和 建立 相应 的 管 
理 机 制 等 ， 提 高 了 整个 电力 行业 数据 仓库 建设 的 风险 概率 。 

8. 数据 仓库 的 总 体 建 设 策略 建议 

1) 电力 行业 省 级 单位 对 数据 分 析 的 需求 具有 一 定 差异 性 。 除 了 有 整个 电力 行业 共性 统 
一 的 内 容 ， 也 允许 存在 个 性 化 的 内 容 ， 我 们 在 技术 架构 统一 的 前 提 下 ， 人 允许 不 同 的 省 级 单位 
使 用 不 同 的 平台 软件 。 

2) 电力 公司 总 部 对 数据 仓库 的 建设 应 该 有 一 个 统一 的 数据 标准 体系 ， 它 可 以 帮助 省 级 
单位 建立 各 目的 数据 管理 体系 ， 保 证 总 部 和 省 级 单位 数据 的 可 用 性 。 

3) 可 以 通过 对 试点 省 级 单位 的 成 功 推广 ， 减 少 其 他 单位 实施 数据 仓库 的 风险 ， 也 就 是 
通过 典型 成 功 案例 经 验 的 指导 ， 在 全 国 范围 内 进行 数据 仓库 建设 。 

总 之 ， 电 力行 业 数据 仓库 的 实施 策略 是 以 降低 风险 为 原则 ， 通 过 试点 建设 积累 经 验 和 方 
法 ， 形 成 统一 的 数据 模型 标准 、 管 控 方 法 和 数据 仓库 体系 架构 ， 然 后 回 其 他 省 级 单位 推广 。 
这 样 可 以 保证 整个 电力 行业 数据 仓库 建设 的 有 序 开展 。 

举例 来 说 ， 首 先 通 过 试点 的 建设 ， 对 数据 模型 进行 规划 ， 提 供 逻 辑 模 型 和 物理 模型 ， 制 
定数 据 标 准 管理 机 制 ， 建 立 数据 仓库 体系 架构 和 数据 质量 管理 策略 。 

然后 经 过 一 系列 的 经 验 验证 ， 形 成 统一 的 数据 模型 标准 、 数 据 仓库 统一 体系 架构 以 及 各 
种 数据 标准 管理 机 制 等 。 

最 后 进行 宣传 推广 和 执行 千 导 。 数 据 仓 库 的 开发 流程 是 以 业务 需求 驱动 为 导 回 的 深 动 式 
开发 ， 以 全 局 观点 为 基础 的 不 断 完善 的 财 环流 程 ， 如 网 13-25 所 示 。 












































图 13-25 数据 仓库 的 总 体 建 设 策略 建议 
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13.3 电力 行业 数据 架构 





电力 总 公司 ODS 的 功能 与 省 电力 公司 的 ODS 相同， 主要 区 别 在 于 数据 源 的 不 同 。 总 公 
司 的 ODS 数据 源 主 要 是 部 普 在 电力 公司 总 部 的 业务 系统 数据 产 。 电 力 总 公司 数据 仓库 的 数 
据 源 主要 包括 电力 公司 总 部 业务 系统 的 明细 数据 、 省 电力 公司 数据 仓库 上 报 的 数据 等 。 

电力 总 公司 的 数据 集 市 主要 基于 企业 安 观 发 展 的 分 析 应 用 ， 包 括 可 以 器 系统 、 览 省 市 地 
对 数据 进行 全 面 安 观 的 分 析 ， 同 时 也 聚焦 于 企业 的 管理 。 省 电力 公司 的 数据 仓库 主要 基于 对 
省 级 单位 的 数据 整合 和 历史 数据 存储 。 这 些 数据 主要 是 细 市 性 的 、 低 级 别 的 信息 。 根 据 分 析 
需求 ， 建 立 汇总 数据 。 同 时 为 数据 集 市 提供 整合 后 的 、 高 质量 的 数据 。 

省 电力 公司 的 数据 集 市 是 针对 特定 的 、 菏 个 主题 域 的 数据 集合 。 这 些 数据 可 以 快速 地 被 
访问 。 电 力行 业 总 体 的 数据 架构 如 网 13-26 所 示 。 



































到 信忠 过 是 


叫 信 过 旺 蕊 


5 缓冲 区 本 数据 仓库 





开交 过 是 起 


图 13-26 ”电力 行业 总 体 的 数据 架构 
1. 针对 电力 行业 的 数据 管理 
数据 党 理 是 数据 架构 的 基础 ， 它 决定 了 数据 的 可 用 性 和 价值 。 
1) 数据 管理 保证 数据 的 质量 ， 确 保 效 据 的 可 用 性 。 
2) 数据 管理 将 数据 、 数 据 使 用 者 、 数 据 的 管理 机 构 整 合 到 一 起 。 
3) 数据 管理 的 内 容 主 要 包括 数据 质量 管理 、 效 据 标准 管理 和 数据 安全 管理 ， 如 图 13-27 
所 未 。 











图 13-27 针对 电力 行业 的 数据 管理 
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4) 数据 管理 主要 考虑 流程 、 技 术 和 组 织 。 

2 数据 质量 管理 

数据 质量 管理 主要 包含 以 下 几 个 方面 的 内 容 : 

(1) 数据 质量 管理 定义 

通过 制定 电力 公司 数据 质量 的 衡量 指标 ， 评 倍数 据 在 使 用 过 程 中 的 质量 问题 。 寻 找 数 据 
质量 产生 的 根源 ， 利 用 相关 的 工作 流程 解决 数据 质量 问题 ， 以 你 证 电力 公司 的 数据 质量 不 断 
提高 。 

(2) 数据 质量 管理 目标 

分 析 业 务 需求 对 于 数据 质量 管理 的 有 要求， 降低 因为 效 据 质量 问题 而 导致 的 决策 风险 ， 通 
过 数据 质量 的 不 断 提 升 和 改进 ， 建 立 相应 的 管理 机 制 和 数据 质量 问题 处 理 流 程 。 

(3) 数据 质量 管理 原则 

1) 数据 质量 管理 需要 数据 创建 人 员 、 使 用 人 员 和 维护 人 员 之 间 的 通力 合作 。 

2) 电力 公司 应 该 学 习 先 进 的 外 部 经 验 ， 了 解 实 施 数据 质量 管理 的 必要 流程 。 

3) 可 以 选择 部 分 主题 进行 数据 质量 管理 试点 工作 。 

(4) 数据 质量 管理 工作 内 容 

1) 制定 数据 质量 管理 荣 略 ， 满 足 业 务 分 析 对 数据 质量 的 要 求 。 

2) 根据 数据 质量 管理 目标 ， 制 定数 据 质 量 管理 方法 。 

3) 执行 数据 质量 管理 流程 ， 推 进 数 据 质 量 管理 的 分 布 实施 。 根 据 业 务 管理 主题 分 类 、 
分 阶段 进行 推广 。 

电力 公司 面临 的 数据 质量 问题 分 类 见 表 13-6。 

表 13-6 电力 公司 面临 的 数据 质量 问题 分 类 


















































数据 质量 问题 分 类 说 明 示 例 
数据 是 否 完 束 判断 是 否 有 足够 的 信息 能 够 满足 | ”所 有 的 地 址 是 否 都 有 邮编 、 个 人 信息 
I 决策 需求 ， 每 条 信息 是 否 完整 中 是 否 都 有 联系 方式 等 











客户 的 邮政 编码 是 否 与 目前 的 家 庭 地 
址 一 至 


这 及 但 扫 了 了 泡 a 中 多 人 
有 无 元 余数 据 否 有 数 条 记录 表示 同一 个 实体 | 部” 系 过 你 半天 于 训 备 的 多 全 有 


数据 是 否 能 够 正确 反映 现实 











(5) 数据 质量 的 指标 类 型 
数据 质量 的 指标 类 型 见 表 13-7。 


表 13-7 数据 质量 的 指标 类 型 











指标 类 型 说 明 衡量 标准 
E 实体 的 每 个 属性 都 有 明确 的 值 ， 不 存在 之 了 负 和 扑 安信 变 
完整 性 : 罕 ” 或 “未 知 ”的 属性 字段 的 空 值 率 
A 对 于 数据 库 中 的 某 些 实体 ， 它 们 的 存在 1 六 
相关 性 可 能 要 依赖 于 其 他 的 实体 外 键 无 对 应 主键 的 比率 
唯一 性 一 个 表 中 的 一 组 属性 值 是 唯一 的 主键 的 重复 率 
有 效 性 实体 属性 的 值 在 有 效 范 围 之 内 异常 值 比率 
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指标 类 型 衡量 标准 












































及 时 性 是 否 满足 应 用 对 数据 的 时 间 要 求 满足 时 间 要 求 的 比率 
有 目 不 存 S70 > 可 一 个 祥 4 
非 重 复 记录 是 舍 行 在 多 条 记录 代表 同一 个 实体 的 | 数据 非 重复 记录 比率 
迷 休 兮 7 外 人 乡下 人 条 Ys 
真实 性 的 岳 诈 宁 的 实体 必须 现实 在 界 中 的 对 真实 数据 比率 
象 保持 一 致 
精确 性 数据 精度 是 否 满 足 业务 需求 满足 业务 需求 对 精度 要 求 的 比率 
_ 致 性 多 个 系统 内 一 致 数据 的 百分比 关于 数据 不 同 存储 的 比率 
可 理解 性 数据 本 身 的 含义 是 否 明确 数据 理解 的 比率 
可 获得 性 数据 是 否 可 获得 ， 以 满足 业务 的 需求 数据 可 获得 记录 的 比率 


(6) 数据 质量 的 分 类 
数据 质量 的 分 类 见 表 13-8 。 
表 13-8 数据 质量 分 类 标准 
数据 质量 分 类 标准 说 明 示 例 


当 有 多 条 记录 存在 时 ,信息 及 含义 是 否 关于 设备 的 信息 在 生产 系统 和 财务 系统 中 是 否 
一 致 














时 效 性 从 数据 的 创建 到 使 用 ， 是 否 满足 用 户 对 数据 在 业务 系统 中 从 产生 到 使 用 ， 是 否 满足 用 
时 效 性 的 要 求 户 对 时 效 性 的 要 求 


Ne ， 数据 是 否 进 入 到 数据 仓库 中 ， 并 且 能 够 被 决策 
口 4 洲 日 ~ » 口 多 要 
可 用 性 数据 是 否 是 可 用 的 和 易于 理解 的 一 个 报告 是 否 容 易 理解 ， 不 会 产生 歧义 


(7) 数据 质量 管理 工作 说 明 

数据 质量 管理 工作 的 流程 是 数据 分 析 人 员 或 者 管理 维护 人 员 定 期 提交 数据 质量 报告 ， 报 
告 内 容 可 能 不 断 增加 ， 随 着 质量 管理 工作 的 开展 ， 报 告 内 容 将 落实 到 各 个 环节 中 ， 但 是 数据 
质量 管理 不 能 代替 系统 的 测试 工作 。 

3. 数据 标准 管理 

(1) 数据 标准 管理 定义 

制定 和 维护 电力 公司 业务 经 营 所 涉及 的 数据 的 标准 。 主 要 包括 : 制定 标准 、 审 核 标 准 、 
执行 标准 、 反 馈 数 据 标准 。 数 据 标 准 管理 的 对 象 是 所 有 业务 经 营 管理 的 数据 ， 不 包括 参数 型 
数据 。 

(2) 数据 标准 管理 工作 目标 

1 ) 完善 数据 标准 。 

2) 使 用 数据 标准 。 

3) 反馈 数据 标准 。 

4) 更 新 数据 标准 。 

5) 制定 相应 的 数据 标准 管理 机 制 ， 包 括 相 应 的 岗位 职责 、 工 作 模 板 等 。 
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(3) 数据 标准 管理 指导 原则 

参考 国内 外 相关 行业 的 标准 ， 同 时 结合 电力 公司 的 实际 需求 ， 要 求 数据 标准 能 够 在 一 段 
时 间 内 相对 稳定 ， 满 足 电 力 公 司 各 个 部 门 对 数据 标准 的 要 求 ， 而 不 是 频 楷 地 更 改 与 修订 。 

(4) 数据 标准 管理 工作 内 容 

数据 标准 管理 主要 工作 内 容 包 括 : 制定 并 公布 数据 标准 ， 制 定数 据 标准 管理 方法 、 管 理 
流程 、 疯 位 职责 、 工 作 模 板 等 。 

4. 数据 安全 管理 

(1) 数据 安全 管理 定义 

电力 公司 数据 安全 管理 的 定义 是 对 敏感 数据 建立 一 套 完 整 的 数据 安全 分 级 和 授权 机 制 。 

(2) 数据 安全 分 级 的 工作 目标 

通过 建立 一 套 完 整 的 数据 安全 分 级 标准 ， 明 确 数据 使 用 者 和 数据 安全 人 员 的 工作 职责 及 
权限 ， 同 时 建立 相关 的 数据 使 用 授权 机 制 。 

(3) 建立 数据 安全 机 制 的 指导 原则 

结合 相关 的 法 律 、 法 规 和 电力 行业 内 部 的 标准 ， 开 展 关 于 数据 安全 分 级 和 授权 的 工作 。 
根据 数据 使 用 者 的 职 贡 ， 定 义 使 用 者 的 权限 。 该 流程 是 包括 制定 、 审 核 、 人 颁布、 执行、 反馈 
和 修正 在 内 的 闭环 工作 过 程 。 

(4) 数据 安全 分 级 的 工作 内 容 

通过 制定 相关 的 数据 安全 标准 和 政 琐 ， 定 义 和 维 护 数据 的 安全 分 级 标准 ， 建 立 标 准 的 维 
护 和 更 新 流程 ， 为 数据 的 应 用 和 管理 提供 安全 保障 。 主 要 内 容 包 括 建 立 数据 安全 分 级 和 数据 
使 用 授权 机 制 ， 实 现 数 据 访 问 的 安全 性 ， 同 时 对 数据 安全 分 级 和 授权 机 制 的 流程 进行 调整 和 
优化 。 

(5) 数据 安全 级 别 的 划分 

数据 安全 级 别 的 划分 见 表 13-9。 


表 13-9 数据 的 安全 级 别 












































密 级 定 义 示 例 
n 关系 到 国家 安全 或 者 包 合 商 业 机 窗 的 信 | 何如， 涉及 国家 安全 的 机 密 信息 ;电力 行业 的 战略 
绝 窗 县 ? 要 求 信 vv 具有 [可 虔 机 窗 隆 、 准 确 隆 、 规划 购并 计划 财务 信 自 等 内 容 
完整 性 、 可 靠 性 和 可 用 性 。 和 
机 密 涉及 电力 行业 运作 的 信息 ， 要 求 保证 机 例如 ， 各 种 产品 和 系统 的 源 代码 ， 未 公开 的 监管 数 


密 性 、 准 确 性 、 完 整 性 、 可 靠 性 和 可 用 性 ”| 据 和 各 种 审计 报告 等 


可 以 在 电力 企业 内 部 共享 的 信息 ， 但 是 
内 部 不 能 对 公众 开放 的 数据 和 信息 ， 要 求 保 证 例如 ， 业 务 操作 流程 、 会 议 备 饼 录 、 内 部 通讯 录 等 
数据 的 完整 性 、 准 确 性 、 可 靠 性 、 可 用 性 
经 过 审核 后 ， 通 过 电力 企业 发 布 渠道 问 
公开 外 公开 的 数据 和 信息 ， 需 要 保证 信息 的 完 电力 企业 网 站 发 布 的 信息 和 公开 报告 
整 性 和 准确 性 











小 结 


(1) 电力 行业 主要 面临 着 如 下 业务 挑战 和 技术 挑战 。 
e 业务 挑战 
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1) 电力 行业 的 分 析 系统 一 般 仅 提供 简单 的 报表 功能 ， 功 能 单一 ， 高 层 人 员 无 法 从 全 局 
的 角度 对 各 条 业务 线 进行 多 层次 的 综合 分 析 。 

2 ) 对 于 各 个 分 析 系 统 来 说 ， 它 们 又 集中 于 各 自 的 领域 ， 不 具备 跨 业务 的 分 析 能 力 ， 存 
在 着 数据 不 一 致 的 现象 ， 不 能 有 效 地 发 挥 电力 行业 数据 资产 的 价值 。 

。 技术 挑战 

1) 分 析 型 系统 与 业务 生产 系统 耦合 性 较 强 ， 缺 乏 对 全 局 业务 分 析 的 支持 ， 对 于 相同 业 
务 数据 ， 可 能 会 存在 不 同 的 版 本 。 

2) 各 个 业务 系统 管理 各 自 的 数据 ， 数 据 的 业务 含义 在 各 个 部 门 之 间 可 能 存在 不 一 致 的 
解释 ， 数 据 质量 也 相对 较 低 。 

(2) 电力 行业 商业 智能 的 数据 架构 包括 源 数据 层 、 数 据 抽取 层 、 数 据 存储 层 、 数 据 访 问 
层 和 用 户 访问 层 。 

(3) 建设 电力 行业 企业 级 数据 仓库 的 因素 主要 包括 业务 因素 和 技术 因素 。 

。 业 务 因素 

在 业务 上 ， 缺乏 统一 的 报表 与 指标 规范 体系 ， 缺 少 明确 的 数据 责任 体系 。 

。 技术 因素 

缺少 规范 的 数据 架构 ， 导 致 数据 分 布 的 不 合理 和 模型 的 不 一 致 。 同 时 数据 管理 不 规范 ， 
缺乏 企业 级 的 数据 整合 和 管控 机 制 。 

(4) 数据 仓库 开发 应 实施 以 全 局 的 观点 为 基础 ， 业 务 需 求 为 导向 的 滚动 式 开发 方法 。 

(5) 电力 行业 商业 智能 系统 的 开发 流程 : 

。 计划 

。 分 析 

。 设计 及 开发 

。 测试 

。 部 团 

(6) 电力 行业 数据 仓库 系统 的 运 维 内 容 : 

。 备 份 与 恢复 

。 归档 与 恢复 

。 系 统 监控 

。 容 量规 划 

。 性 能 管理 

(7) 数据 仓库 的 总 体 建设 策略 建议 ， 

1) 电力 公司 省 级 单位 对 数据 分 析 的 需求 具有 一 定 差异 性 。 除 了 有 整个 电力 公司 共性 统 
一 的 内 容 ， 也 允许 存在 个 性 化 的 内 容 ， 我 们 在 技术 架构 统一 的 前 提 下 ， 人 允许 不 同 的 省 级 单位 
使 用 不 同 的 平台 软件 。 

2) 电力 公司 总 部 对 数据 仓库 的 建设 应 该 有 一 个 统一 的 数据 标准 体系 ， 它 可 以 帮助 省 级 
单位 建立 各 自 的 数据 管理 体系 ， 保 证 总 部 和 省 级 单位 数据 的 可 用 性 。 

3) 可 以 通过 对 试点 省 级 单位 的 成 功 推广 ， 减 少 其 他 单位 实施 数据 仓库 的 风险 ， 也 就 是 
通过 典型 成 功 案例 经 验 的 指导 ， 在 全 国 范围 内 进行 数据 仓库 建设 。 

(8) 电力 总 公司 ODS 的 功能 与 省 电力 公司 的 ODS 相同 ， 主 要 区 别 在 于 数据 源 的 不 同 。 
了 30 







































































总 公司 的 ODS 数据 源 主要 是 部 署 在 电力 公司 总 部 的 业务 系统 数据 源 。 电 力 总 公司 的 数据 仓 
库 的 数据 源 主要 包括 电力 公司 总 部 业务 系统 的 明细 数据 、 省 电力 公司 数据 仓库 上 报 的 数 
据 等 。 

(9) 针对 电力 行业 的 数据 管理 : 

数据 管理 是 数据 好 构 的 基础 ， 它 决定 了 数据 的 可 用 性 和 价值 。 

1) 数据 管理 保证 数据 的 质量 ， 确 保 效 据 的 可 用 性 。 

2) 数据 管理 将 数据 、 数 据 使 用 者 、 数 据 的 管理 机 构 整 合 到 一 起 。 

3 ) 数据 管理 的 内 容 主 要 包括 数据 质量 管理 、 数 据 标 准 管理 和 数据 安全 管理 。 

4) 数据 管理 主要 考 处 流程、 技术 和 组 织 。 

(10) 数据 质量 的 管理 主要 包含 以 下 几 个 方面 的 内 容 : 数据 质量 管理 定义 、 数 据 质量 管 
理 目 标 、 数 据 质 量 管理 原则 、 数 据 质 量 管理 工作 内 容 等 。 
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拉 术 词汇 


1) 企业 战略 : 企业 战略 是 对 企业 发 展 目 标 ， 包 括 达 成 目标 的 方法 和 途径 的 总 体 谋划 。 

2) 企业 业务 战略 : 企业 的 业务 战略 是 指 企业 拥有 的 所 有 资产 ， 通 过 多 种 方式 进行 有 效 
的 运 宫 ， 以 实现 利润 的 最 大 化 和 资本 的 增值 。 它 强调 了 企业 在 各 目的 生产 领域 中 的 发 展 之 
这， 包括 如 何 创 造价 值 ， 并 且 以 更 好 的 服务 去 满足 客户 ， 这 是 企业 业务 战略 的 核心 和 重点 。 

3) 企业 开战 略 : 企业 的 开战 略 是 指 在 充分 全 守 企业 的 发 展 愿 景 、 业 务 介 略 和 管理 的 
基础 上 ， 形 成 信息 系统 的 远景 、 组 成 架构 、 逻 辑 天 系 等 ， 以 文 掺 企业 战略 目标 的 实现 。 

4) 企业 架构 : 企业 架构 实 奈 上 就 是 对 企业 多 角度 的 一 种 摘 述 ， 它 反映 了 企业 的 业务 流 
程 、 技 术 的 组 织 和 安排 ,是 对 企业 关键 性 业务 和 技术 的 整体 性 描述 。 

5) IT 架构 ,IT 架构 是 对 企业 系统 的 开 规划 ， 是 建立 企业 信息 化 系统 的 综合 性 的 蓝图 ， 
IT 架 构 可 以 帮助 企业 获得 最 优 的 投资 回报 ， 同 时 实现 业务 和 技术 接口 之 间 的 标准 化 ， 保 证 
企业 运 癌 和 企业 战略 之 间 的 一 任性 ，IT 架构 又 是 承接 全 战略 与 全 项 目 执行 的 桥梁 ， 它 主要 
包含 应 用 淋 构 、 数 据 染 构 和 技术 架构 。 

6) 业务 架构 : 广义 的 业务 架构 包括 产品 、 销 售 、 财 务 、 人 力 资 源 、 客 户 服务 等 企业 核 
心 的 业务 功能 和 职责 。 并 且 将 企业 战略 转化 成 企业 运 言 的 目标 和 形式 ， 同 时 明确 相关 人 员 、 
企业 资源 、IT 资源 和 服务 如 何 协调 和 部 普 的 。 我 们 可 以 说 由 企业 战略 决定 了 业务 染 构 的 模 
却 ， 同 时 业务 架构 又 是 企业 成 略 实现 的 手段 。 而 狭义 的 业务 架构 包含 了 企业 运营 活动 中 的 业 
务 末 上 略 、 组 织 、 关 键 业 务 流程 、 组 织 架 构 以 及 人 员 结 构 每 内 容 。 

7) 数据 染 构 .数据 架构 是 数据 在 信息 系统 中 的 布局 与 流向 的 框架 和 与 数据 相关 的 架构 
组 件 的 摆 放 。 数 据 是 指 系 统 所 处 理 的 所 有 信息 和 数据 。 而 架构 组 件 负责 数据 的 存储 、 交 互 和 
应 用 等 功能 。 主 要 内 容 包 括 数 据 的 流向 ， 是 指数 据 从 源 系统 经 过 各 类 人 处理 、 加 工 而 到 达 目 标 
系统 的 过 程 。 数 据 染 构 的 核心 包括 对 数据 层次 的 划分 、 数 据 的 分 布 、 各 层次 的 数据 模型 和 数 
据 的 转换 每 。 数 据 架 构 是 企业 染 构 中 最 重要 的 组 成 部 分 之 一 。 

8) 数据 分 类 :数据 分 类 是 按照 选 定 的 属性 (或 特征 ) 区 分 分 类 对 象 ， 将 具有 菏 种 共 司 
属性 (或 特征 ) 的 分 类 对 和 象 集合 在 一 起 的 过 程 。 

9) 数据 大 类 : 数据 大 类 是 从 宏观 的 角度 理解 企业 全 局 的 业务 情况 。 

10) 数据 小 类 : 数据 小 类 是 在 同一 大 类 内 ， 按 照 业 务 的 特性 做 进一步 的 细 分 。 

11) 数据 模型 : 数据 栋 型 是 对 数据 特征 的 抽象 ， 它 一 般 分 为 概念 模型 、 人 逻辑 模型 和 物理 
模型 。 概 念 模型 是 以 数据 分 类 的 形式 体现 ， 而 逻辑 模型 以 ER 图 的 形式 体现 。 

12) 概念 模型 ,概念 模型 是 从 业务 的 角度 对 数据 进行 抽象 ， 包 括 业 务 层面 上 主题 域 的 划 
分 ， 以 及 各 个 主题 域 下 的 数据 分 类 和 基于 分 类 的 非 功 能 属性 。 

13 ) 逻辑 数据 模型 : 逻辑 数据 模型 是 用 来 发 现 、 记 录 和 沟通 业务 的 详细 “蓝图 ”， 由 一 
系列 表 和 实体 详细 描述 组 成 ， 是 通用 的 业务 语言 ， 便 于 业务 与 业务 之 间 的 功能 理解 ， 肚 循 第 
三 范式 ， 包 括 主题 域 的 设计 、 基 本 实体 的 设计 和 主要 属性 的 设计 ， 是 IT 人员 和 业务 人 员 沟 
通 的 工具 和 桥梁 。 
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14) 物理 模型 ,物理 模型 是 对 人 逻辑 模型 针对 具体 实现 环境 的 物理 化 ， 可 以 不 休 循 第 三 范 
式 ， 主 要 包括 实体 属性 的 物理 化 ， 属 性 的 长 度 、 类 型 、 主 键 、 外 键 、 索 引 等 详细 设计 。 物 理 
模型 主要 是 描述 模型 实体 的 细节 ， 对 列 的 属性 进行 明确 的 定义 。 物 理 模型 的 建设 过 程 是 在 逻 
辑 模型 的 基础 上 ， 为 应 用 生产 环境 选取 一 个 合适 的 物理 结构 的 过 程 ， 包 括 存 储 结构 和 存储 
方法 。 

15) 数据 分 布 : 数据 分 布 主要 分 析 业 务 数据 在 多 个 系统 之 间 和 多 个 环节 之 间 的 分 布 
情况 。 

16) 数据 流转 : 数据 流转 是 摘 述 业务 分 类 在 各 个 逻辑 库 之 间 的 流转 情况 。 

17) 数据 归档 : 数据 归档 是 定期 将 基础 数据 存储 、 应 用 的 数据 进行 归档 保存 ， 它 的 目的 
是 为 了 保存 原始 数据 。 原 则 上 数据 归档 对 中 间 数 据 或 者 临时 数据 不 进行 归档 操作 。 

18) 数据 质量 管理 : 数据 质量 管理 是 对 每 个 阶段 里 可 能 引发 的 各 种 数据 质量 问题 进行 识 
别 、 监 控 和 预警 等 一 系列 的 活动 ， 通 过 业务 管控 以 及 技术 手段 ， 保 证 数据 的 一 致 性 、 完 整 性 
和 准确 性 ， 使 其 数据 能 够 准确 地 反映 当前 的 业务 状况 。 

19) 技术 架构 的 定义 : 技术 染 构 是 全 架构 中 比较 底层 的 架构 ， 它 定义 了 如 何 建 立 一 个 
IT 运行 环境 来 支持 数据 架构 和 应 用 染 构 。 技 术 架 构 主 要 摘 述 业务 、 数 据 、 应 用 服务 部 署 的 
基础 设施 能 力 ， 通 过 技术 架构 可 以 建立 一 个 全 平台 ,涉及 对 技术 的 采用 、 基 础 设施 的 建立 、 
产品 的 选择 、 系 统 的 管理 等 方面 。 

20) 应 用 染 构 的 定义 : 应 用 架构 古 对 实现 业务 能 力 、 文 择业 务 发 展 的 应 用 功能 结构 化 的 
描述 方法 。 系 统 的 应 用 染 构 可 以 从 功能 和 应 用 两 个 不 同 的 视角 描述 系统 各 组 件 构 成 以 及 组 件 
之 间 的 关系 。 功 能 组 件 模 型 侧重 于 业务 功能 角度 ， 应 用 组 件 模 型 侧重 于 应 用 系统 设计 和 角度。 

21) 数据 治理 分 析 框 保 的 定义 : 数据 治理 分 析 框 染 主要 包含 两 个 部 分 ,一 个 是 数据 治理 
管控 机 制 ， 如 政 案 、 组 织 、 流 程 和 技术 工具 ， 为 一 个 是 数据 治理 涉及 的 领域 ， 如 数据 质量 管 
理 、 数 据 标 准 管理 、 数 据 生命 周期 管理 和 元 数据 管理 。 

22) 数据 治理 的 定义 : 数据 治理 是 一 套 包 仿生 略 、 原 则 、 组 织 结构 、 管 理 制度 、 流 程 ， 
并 由 各 种 相关 技术 工具 所 文 返 的 管理 框 名 。 数 据 治理 是 对 数据 管理 与 应 用 行使 权力 和 控制 的 
活动 集合 ， 在 数据 管理 与 应 用 层面 上 进行 规划 、 监 督 和 控制 。 数 据 治理 为 数据 省 理 、 数 据 应 
用 与 服务 提供 保障 。 

23 ) 数据 治理 现状 分 析 框 架 : 主要 用 于 帮助 系统 对 数据 治理 现状 进行 分 析 ， 一 般 包括 数 
据 治理 机 制 和 数据 治理 领域 两 个 部 分 。 

24) 数据 治理 领域 : 数据 治理 领域 可 以 包括 数据 质量 管理 、 数 据 生 命 周 期 管理 、 数 据 标 
准 管理 和 元 数据 管理 。 

25 ) 数据 生命 周期 管理 : 数据 生命 周期 管理 根据 数据 在 生命 周期 各 个 阶段 的 使 用 情况 和 
需求 特点 ， 采 用 技术 手段 ， 对 数据 的 存储 、 迁 移 和 销毁 进行 统一 管理 ， 以 提高 系统 运行 的 效 
率 。 数 据 生命 周期 管理 的 目的 是 对 数据 进行 统一 管理 ， 降 低 数据 的 安全 隐患 和 存储 压力 。 

26) 元 数据 管理 : 元 数据 管理 是 摘 述 数据 的 数据 ， 它 可 以 帮助 企业 了 解数 据 、 认 识 效 据 
和 管理 数据 。 

27) 数据 标准 管理 : 数据 标准 管理 是 一 套 完 整 的 数据 规范 ， 是 数据 在 使 用 和 交换 过 程 
中 ， 为 了 保持 数据 一 任性 和 准确 性 而 制定 的 规范 ， 它 主要 包括 数据 分 类 、 业 务 标准 和 技术 标 
准 的 详细 定义 。 数 据 标准 是 数据 治理 中 基本 的 业务 和 技术 层面 的 保障 。 
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28) 大 数据 : 大 数据 就 是 通过 快速 的 采集 、 挖 掘 和 分 析 ， 从 大 数据 量 的 、 多 样 化 的 数据 
中 提取 价值 。 形 象 地 说 ， 大 数据 就 是 “沙里 淘金 ”的 过 程 。 

29 ) 商业 智能 : 商业 智能 就 是 利用 数据 仓库 、 数 据 分 析 和 欣 掘 技术 ， 以 抽取 、 转 换 、 碍 
询 、 分 析 和 预测 为 主 的 技术 手段 ， 帮 助 企 业 完成 决策 分 析 的 一 套 解决 方案 。 

30) 数据 仓库 : 数据 仓库 是 一 个 面 回 主题 的 、 集 成 的 、 非 吻 失 的 、 历 史 的 、 随 着 时 间 的 
流逝 发 生变 化 的 数据 集合 ， 它 主要 用 来 支持 企业 管理 人 员 的 决策 分 析 。 

31) 数据 集 市 : 数据 集 市 就 是 满足 特定 的 部 门 或 者 用 户 的 需求 ， 按 照 多 维 的 方式 进行 存 
储 ， 包 括 定 义 维度 、 需 要 计算 的 指标 、 维 度 的 层次 等 ， 生 成 面向 决策 分 析 需 求 的 数据 立方 
体 。 数 据 仓库 体系 结构 中 增加 了 数据 集 市 ， 数 据 集 市 可 以 看 作 部 门 级 的 小 型 数据 仓库 。 

32 ) 分 析 类 数据 集 市 是 通过 数据 挖掘 等 方法 帮助 企业 发 现 业 务 趋势 ， 提 高 企业 运营 效 
率 ， 深 度 挖 据 数据 的 价值 。 分 析 类 数据 集 市 包括 文本 分 析 、 数 据 挖掘 、 预 测 分 析 和 可 视 化 分 
Vr 

33 ) 管理 类 数据 集 市 是 指 为 了 企业 运营 管理 需要 而 进行 的 数据 整合 分 析 。 管 理 类 数据 集 
市 面向 企业 内 部 的 人 员 ， 对 于 数据 的 实时 性 要 求 不 高 。 主 要 包括 管理 芍 强 舱 、 固 定 报 表 、 
OLAP 分 析 和 KPI。 管 理 类 数据 集 市 主要 支持 对 业务 运营 的 分 析 。 

34) 人 研发 类 数据 集 市 主要 支撑 各 个 业务 部 门 的 应 用 系统 ， 满 足 分 析 需 要 的 数据 集合 。 

35 ) 金融 : 金融 就 是 在 日 常 经 济 生活 中 ， 通 过 银行 、 证 券 机 构 等 中 介 ， 从 市 场 主 体 中 募 
集资 金 ， 然 后 再 借贷 给 其 他 市 场 主体 的 活动 。 可 以 把 金融 看 作 融 资 、 投 资 和 资金 募集 这 3 种 
经 济 活动 。 

36) 0DS$: ODS 是 一 个 面 回 主题 的 、 集 成 的 、 可 变 的 、 反 映 当 前 细节 的 数据 集合 。 它 主 
要 用 于 支持 企业 处 理 业 务 应 用 和 存储 面向 主题 的 、 即 时 性 的 集成 数据 ， 为 企业 决策 者 提供 当 
前 细 市 性 的 数据 ， 通 党 作为 数据 仓库 的 过 渡 阶 段 。 

37) ETL:. ETL 是 数据 抽取 (Extract)、 转 换 (Transform)、 加 载 (Load ) 的 更 文 简写 。 
它 的 一 般 过 程 是 指 : 将 源 数据 抽取 出 来 ， 中 间 经 过 数据 的 清洗 、 转 换 ， 最 后 加 载 到 目标 
表 中 。 

38) OLTP: OLTP (在 线 联机 事务 处 理 ) 系统 主要 面 回 细节 性 的 数据 ， 存 储 的 都 是 当前 
的 数据 ， 用 来 文 持 日 党 业务 运作 。 这 些 数据 都 是 可 以 更 新 的 ， 数 据 处 理 量 相 对 较 小 。 

39) OLAP: OLAP (在 线 联机 分 析 处 理 ) 系统 主要 是 综合 的 、 并 且 经 过 提炼 的 数据 ， 它 
的 数据 主要 是 历史 数据 ， 不 可 修改 ， 数 据 处 理 量 相 对 较 大 ， 主 要 面向 决策 分 析 人 处 理 。 

40) 内 容 管理 : 内 容 管 理 主 要 提供 对 非 结 构 化 数据 的 存储 、 访 问 和 管理 的 能 力 ， 包 括 一 
些 任 证 有 影像、 所 有 格式 的 办 公文 档 、XML、HTML、 各 类 报表 、 图 像 和 音频 /视频 信息 等 。 

41) 数据 归档 : 数据 归档 就 是 将 旧 的 以 及 不 需要 的 数据 ， 从 数据 库 中 复制 到 其 他 地 方 。 

42) 维度 : 是 指 人 们 观察 事物 的 角度 ， 如 地 区 维度 、 时 间 维 度 、 产 品 维度 等 。 

43) 层 : 根据 维度 细节 程度 的 不 同 ， 划 分 数据 在 逻辑 上 的 等 级 关系 ， 用 来 描述 维度 的 各 
个 方面 。 例 如 ， 时 间 维 度 包括 年 、 季 度 、 月 、 日 等 层次 ， 地 区 维度 包括 国家 、 省 、 市 、 县 等 
层次 。 

44) 维度 的 成 员 : 维度 的 取 值 ， 即 维度 中 的 各 个 数据 元 素 的 取 值 。 例 如 ， 地 区 维度 中 有 具 
体 的 成 员 有 英国 、 法 国 、 德 国 。 

45) 钻 取 : 通过 变换 维度 的 层次 ， 改 变 粒 度 的 大 小 。 它 包括 向 上 销 取 (Drill Up) 和 向 
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下 销 取 (Drill Down)。 问 上 销 取 是 将 细 市 数据 问 上 追 济 到 最 高 层次 的 汇总 数据 。 癌 下 钻 取 是 
将 最 高 层次 的 汇总 数据 深入 到 最 低层 次 的 细节 数据 中 。 

46 ) 旋转 : 通过 变换 维度 的 方向 ， 重 新 安排 维 的 位 置 ， 例 如 行列 互 换 。 

47) 切片 和 切 块 : 在 一 个 或 者 多 个 维度 上 选取 固定 的 值 ， 分 析 其 他 维度 上 的 度量 数据 。 
如 有 果 其 他 维度 剩 余 两 个 ， 则 是 切片 ; 如 果 是 3 个 ， 则 是 切 块 。 

48) 度量 : 多 维 数据 的 取 值 。 例 如 ， 销 售 额 、 利 润 。 

49) ROLAP: 是 基于 关系 数据 库 的 OLAP， 以 关系 型 数据 库 为 基础 ， 对 多 维 数据 的 存储 。 

50) MOLAP: 是 基于 多 维 数据 库 的 OLAP， 其 中 切片 、 切 块 是 主要 技术 。 

51) HOLAP: 是 基于 关系 型 和 多 维和 矩阵 型 等 混合 型 的 OLAP 实现 。 

52) 数据 挖掘 ， 数据 挖掘 (Data Mining) 就 是 从 大 量 的 、 不 完全 的 、 有 了 噪声 的 、 模 糊 
的 、 随 机 的 实际 应 用 数据 中 ， 提 取 隐 含 在 其 中 的 、 人 们 事先 不 知道 的 但 又 是 潜在 有 用 的 信息 
和 知识 的 过 程 。 

53) 流 数据 : 流 数 据 是 一 组 顺序 、 大 量 、 快 速 、 连 续 到 达 的 数据 序列 。 一 般 情况 下 ， 数 
据 流 可 视 为 一 个 随时 间 延 续 而 无 限 增长 的 动态 数据 集合 。 
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